『愛善健康法』のKindle本化1 a kindle book of “Aizen-kenkoho” part 1

はじめに

 この『愛善健康法』のKindle本への道は,OCRに期待して でも解説している。木庭眞さんから,デジタル化のサポートが頂けるようなので,下準備を行っている。父の著作は,ある時期,東京都南分所に属しておられる鈴木智子さんの邦文タイプによるサポートで実現していた,と推定している。その成果はタニハに現在も残っている。
 ぼくが小学四年生の頃か,こどもの日にどこかに連れて行けと駄々をこねて,自宅から10分ほどの父の仕事場があった「みずほ会館」に連れられて行った。そこでおそらく,いさみ寿司から昼食として寿司でも取ってもらったように思う。不満であった。眞さんも一緒だったのではないか。父の机がある大きな部屋からは保津川の氾濫原を経て牛松山が正面に見える。この大部屋の手前には,外から光が入らない比較的小さな部屋があって,鈴木倶子さんが忙しく邦文タイプを打っておられた。入る時,優しい挨拶を頂いたように思うが。ノーベル賞の湯川秀樹の息子さんも父のサポートをされていた。何か質問に来られて,知らない方だったので父に聞いたら,そういう答であった。
 その日は父の頭の白髪抜きをして過ごした。こんなに抜いて大丈夫かと聞いて問題ないというような回答があったことも思い出される。抜いた1/4ぐらいは黒かったのでは無いか。これも聖師の教えに基づくものなのか?
 眞さんには鈴木智子さんの邦文タイプ結果の『霊界物語の大精神』のデジタル化をまずはお願いしようと思ったが,成果がすぐには出ず,やる気を無くされてもと思い,正規の印刷物で字数も少ない『愛善健康法』を先にと今日,考えた。眞さんにデジタル化の全過程を知って頂くべく,ここに手法を残すことにした。

追記 Oct. 8, 2022: 松田宏さんから鈴木倶子さんの写真などが届いた。鈴木倶子さんの消息がわからない。写真1と写真2はいずれも,みずほ会館で,1955年当時。写真2の倶子さんは,松田宏さんが東京から訪ねてこられたからか,すごく嬉しそう。上段左端は木庭次守(38歳),上段中央はのちの本部長櫻井重雄さんか。写真1の部屋は,鈴木倶子さんが邦文タイプを打っておられた部屋ではないかと思う。
 松田さんから送られたコピー写真を,BrotherのA3対応複合機でスキャンしたが1200dpiでも,写真2では顔のテカりが大きかった。富士通のScansnapは簡易のスキャナー(最大600dpi)という印象であったが,自然なスキャン画像で大きな違いがあった。このことから考えると,次に続く「1 Adobe PhotoshopによるOCR前の準備」以下で述べたBrotherの複合機を使うよりも,このBrother複合機で紙コピーして(A4に縮小),Scansnapで一気にスキャンした方が,画質も効率もより優れたコンテンツを得られる可能性がある。

写真1 鈴木倶子さんと松田宏さん

写真2 父などと

1 Adobe PhotoshopによるOCR前の準備

 OCRに期待して で本のスキャン手法などについては記している。眞さんが複合機を持っていないのであれば,ぼくがこの章の作業は実施してゆくことになるだろう。このスキャンは300 (dpi)で実施していた。
 スキャンファイル数は40点で,これをおよそ次のプロセスで切り取りと2階調化を実施した。
1 イメージ > 画像の回転 > 角度入力 > 時計回りか反時計回り。
2 範囲指定して,イメージ > 切り抜き。
3 見開きページ中央の綴じ代部分は,編集 > 消去。
4 切り取った全域を選んで,イメージ > 色調補正 > 2階調化 目分量だが,濃くすると見出しがつぶれるなどする。
5 ファイル > 別名で保存。ファイル名称をページ番号などに替えて,保存するフォルダを指定し,高画質(8)を選ぶ。
 スキャンしたファイルのうち,表紙,内表紙は,基本的には表紙などを作成するのに使用する。

 ocrに供するファイルを,Aizen-kenkoho_for_OCRというフォルダに入れた。この本は目次などにページ1〜8があり,その後,ページ1〜62が続くので,前者のページにはfを冠している。つまり前者のページはpf1.jpgなどとし,後者のページ48と49の見開きファイル名は,p48_49.jpgなどとなっている。

2 OCR作業対象のファイル群をGoogle Driveにコピー

0 Google Driveを開く。
1 すでに愛善健康法のフォルダがあり,その中にスキャンファイルが入っていたので全部削除した。
2 My Driveを右クリックして,Folder uploadを選んで,macのファインダで,Aizen-kenkoho_for_OCRというフォルダを選ぶ。右下にアップロード過程が見え,完了すると,✅️が表示される。
3 My Driveに戻って,愛善健康法のフォルダに,Aizen-kenkoho_for_OCRというフォルダをドラッグアンドドロップする。この中のファイルの配列はmacのファインダ内のものと一致している。

3 OCR作業

 全36ファイルのOCR作業をして,Word文書で出力して,全部ダウンロードすることになる。このOCR作業は,OCRに期待して に記述している。

 上記投稿に示しているが,次のようにする。
1 各ファイルを右クリックして,Open with > Google Docs。
2 File > Down load > Microsoft Word (docx),とすると,Word形式でダウンロードできる。
3 Down loadフォルダ内のファイル群を新たにOCR_Wordというフォルダを作って,My Driveにアップロードする。
4 そして,そのフォルダを,愛善健康法フォルダに移動する。

4 OCR結果の共有

 OCRの結果の一例を図1と2に示す。本文の例が図1である。ルビは最初に抽出されている。本文の解読力はほぼ100%近い。図2は目次部分である。⋯⋯⋯⋯⋯で,かなりの混乱がある。OCR結果を無視して,自らテキスト入力した方が良いのは明らかである。Kindle本ではページの概念は無い。目次それぞれにリンクを設定するのが良いだろう。本文の各項目をレベル2かレベル3にして,目次部分ではリンクを設定するのがベストだ。この作業はぼくがしますので,一行毎に,1項目名を入力してください。本文の項目名も一行をとって,ハードリターンで,その説明の段落を作成してください。

図1 p.2-3のOCR結果の一例

図2 pf6-f7のOCR結果の一例

 Google Driveで,愛善健康法のフォルダ(これからは,\愛善健康法とします)を右クリックし,☃+ Shareを選んで,木庭眞さんのメールアドレスを入れた。Googleメールアドレス以外でも受け付けるということであった。

 革命的と言って良いほど,OCRの結果は良かった。ただ,目次などで縦の⋯⋯⋯⋯⋯などがページ番号に繋がる形の場合,かなり混乱がある。目次は別途,作成するので,目次に掲載された名称のリストだけ,整理して欲しい。

 OCRの作業過程の結果として,文字に色が付いたり,サイズの大小が生じているが,フォントをメイリオにして,全部普通体regular styleにして欲しい。

5 Microsoft Word 縦書きキンドル書式

 この書式については,別途掲載している。また,お伝えしたい。OCR結果のWordで作業はしないで,キンドル版の縦書き書式で,文書を元の本のスキャン表示に従って,整えてください。ルビも併せて追加して下さい。

おわりに

 作業での連絡を通じて,この投稿をよりわかりやすいものにしたいと思っている。タニハではWi-Fi環境が無いのでパソコンでのネット作業はiPhoneを使ってtetheringすることになる。眞さんがこの環境を使っていない可能性がたかく,Google Driveの使い方などを眞さんに知って貰いたくて,亀岡市の公共Wi-Fi環境を調べた。亀岡市のガレリアだっけか,あるかなと思ったけど,どうも無いようだ。ネット検索すると,MacDonaldが3箇所にあった。ここだな。
以上,Sep. 27, 2022記。

追記 Oct. 8, 2022: 後日,MacDonaldに電話したら,Wi-Fiは提供していない,イオンはどうかって。で,イオン亀岡に電話したらオーケー。

 

 




OCRに期待して using OCR Tool in Google Drive

はじめに

 スキャン画像をほぼそのまま使ってキンドル本を出すという考えで試行錯誤したがうまく行かなかった。画像利用可能なオリジナル資料からKindle本 がその内容である。OCRをネット検索した結果からすると,Google Driveに付属している機能が優れているようである。読み取り言語として,日本語にも対応している。ぼくはGoogle Driveの有料版100GBコースに入っており,このWebサイトのバックアップだけに利用してきた。現在20GBぐらいで,かなりの余裕があり,これを使わない手は無いだろう。

1 Google DriveでOCRツールを使う方法

 使い方: 東京経済大学TKUメール > OCRの利用
 Google Drive Help:PDF や写真のファイルをテキストに変換する

2 実際にやってみる

1 画像の回転はプレビュー.appで
先の画像利用可能なオリジナル資料からKindle本 で取り扱った「愛善健康法」のスキャンファイルは 70 p.のものでブラザーのプリンターでスキャンしたファイル数は38個になる。これをPreviewすると,プリンターでのスキャン設定の問題ではあるが,すべて正位置と反時計回りで90度回転している。一気に回転する機能はAdobe Photoshopには無いので,macの写真.appを使ってみよう。極めて簡単,瞬時に終了。
 で,元のフォルダが14.1MBが48.1MBと3.4倍に増大するが,個々のファイルは1.5MB以下なのでGoogle Drive Helpで示されている最大容量2MBよりは小さく問題はない。ただ,このスキャン対象の本は見開きで幅200mm x 高さ170mmほどで,かなり小さい。このpostingで試したい父の邦文タイプで作成された「簡易」印刷の書籍のサイズは見開きで,幅360mm x 高さ250mm程度であり,この写真.appを使うと1ファイルサイズは2MBを超えてしまう。写真.appは使えない。
 さて,プレビュー.appを試してみた。全ファイルを入れたフォルダは13.6MBで何故か14.1MBよりも小さくなった。最大ファイルは417kBで,変化なし。Adobe Photoshopで種々の画像処理をしてもいいが,時間の無駄の可能性があるので,このまま,Google Driveに取り込もうと思う。

2 Google Driveへ
⒜ ChromeまたはGoogleで,Driveを開く。
⒝ My Driveを右クリックするとメニューが現れる。File uploadを選ぶと,ファインダ(またはエキスプローラー)でターゲットのファイルに行き着く。フォルダを選択することはできないが,フォルダ内に入って,全画像ファイルを一気に選択することができる。
⒞ 他のテーマのファイル群と区別するために,My Driveの表示のすぐ上方にある +Newを選んで現れるメニューからNew folerを選択して,この新しいフォルダに名前をつけて,先ほどアップロードした画像ファイル群を移動した方が良いだろう。新しいフォルダを先に用意する方がいいかもしれない。
⒠ 新しいフォルダに格納された個々の画像ファイルを一つ一つ選んでOCR化を実行してゆくことになる。個々のファイルを選んで右クリックするとメニューが現れる。Open with > Google Docsを実行する。その結果を次の図1に。

図1 OCR処理結果が表示される

 

 図1には読み取り結果の一部が見られるが,ほぼ脱落はない。ただ,瑞月道歌の次の最初のサブタイトル「医師(くすし)」が何故か脱落している。「病悩」のルビも脱落している。次のサブテーマの「薬物(くすり)」では,「物」が脱落している。などなど。原本を見ながら対照してゆけば問題はない。

⒡ 図2ではこのOCRを保存する過程を示している。図1にもMicrosoft Wordのようなメニューが上段に現れているが,このFile > Download > Microsoft Word (.docx)を選ぶと,一つ一つのOCR処理結果をWordファイルの形で保存できるので,すこぶる都合が良い。

図2 保存の形式とファイル形式

 図3ではこのダウンロードされたファイルを開いた様子である。全画像ファイルのOCR処理結果をこのように整理することができる。

図3 MS Wordで見ると

⒢ Kindle本のMS Word原稿は縦書きであり,壊れたルビも復元する必要があるので,新たな縦書きに設定したWordファイルに,個々の出力結果を,「ペーストしてスタイルを合わせる」形で,まとめて行けば良いことになる。

 『愛善健康法』のKindle本発行は,もう,楽々と,可能になった。ひたすらテキスト入力をしてゆくというboring situationは避けることができる。

3 邦文タイプの字の薄い本についてはどうだろうか

3.1 通常の解像度300 (dpi)で

 画像利用可能なオリジナル資料からKindle本 の,3 Microsoft Wordで既存書籍スキャンデータからキンドル本出版の枠組み ⒝ 成功例(本来やるべき形だ),がスキャンの参考になる。ただ,ここで引用したpostingの場合のように画像そのものをファイルに取り込むことはしないので,2MB以内で出来るだけ解像度の高い画像を得る必要性がある。

  macでスキャンして適切な環境条件を探す必要があるが,変更点は原稿サイズをB4としたことだけである。書籍は一般書と同じく,横に長く,その頭辺をプリンターの奥に押し込んで設置した。スキャン画像は上記と同様,プレビュー.appで時計回りに90度回転して保存した。その画像そのままは1.3MBで,これをAdobe Photoshopで2階調化(イメージ > 色調補正 > 2階調化)したものは256kBとなった。そして,上記のようにGoolge DriveでOCR処理をしてMS Wordとしてダウンロードした。

 プリンターで印刷しようとしたが,当初,印刷設定を変更せずに印刷しようとしたらA4用紙を入れて通常使っているトレイでは印刷できず,トレイ変更を迫られた。Googleの設定では,USレター普通紙であった。そこで,ぼくが設定しているMicrosoft Word印刷(両面)に変更して初めて印刷することができたのである。

 次の図4は画像そのままのOCRの実行結果の一部である。

図4 Adobe Photoshopでの未処理ファイル

 図5はAdobe Photoshopで二階調化したものである。目分量で閾値を決めている。

図5 2階調化したファイル 

 結論を先に言うと,二階調化したものが使用に耐えうると思う。OCRの結果は縦書きの配置に従っているのではなく,読み取られたものが,改行とは関係無く,続けられていることは注意しなければならない。

 出版物の初めの5行を次に掲げる。なお,ここでは,句の区切りとして空白を挿入した。

古への 神代の奇しき 物語り 朝な夕なに 御魂砕きつ
心血も 涸れなんとする 骨も肉も 砕けなんとす 物語して
こまごまと 真理を説きし 神の書 拝読するたび 開く神国
物語 聞く度毎に 我が胸は 蓮の薫る 心地こそすれ
わが胸の 曇りを払ふ 物語読む 人こそは 神の御使

 図4のOCR結果の初めの5行を次に示す。
い。
村装大石五大
無神伊 吾天主大陸 肝憶方の
ス始 始々都 界は界の界神 の萬の上六 の大抵の 話の今を神 伸江津
大方の世人はことごと怪ば
肝の心の眼くらみ たる人の読むべき書にはあらじ

 これら5行に近い文を探したが,困難を極めた。ただ,第5行は,何故か,この画像の最終行の次の文とほぼ一致している。
村肝の 心の眼くらみたる 人の読むべき 書にはあらじ

 図5のOCR結果の初めの5行を次に示すが,改行位置を変え,スペースも入れている。
古への 神代の奇しき物語り 朝な夕なに 御魂砕きっ
心血名 湖れなんと す。 肉 ち 砕け なんとす 物語 して
とまとまと 真理を説き し 神の雷 拝読するたび 開く 神 国
物語 開く度毎に 避の無 る  心地こそすれ
わが胸 の  張 り を払小 物 語読む 人 と そ は 神の御 使

 以上で見ると,二階調化した場合,使えると考えられる。スキャンの原本を座右に置いて,読み解くという作業はより熟読を強いられるので,より集中力も生まれて,入力する作業にメリハリが生まれるように思われる。機械的に原本をただただ入力するよりは良いのではないか,と考えるが,どうだろうか。

 Adobe Photoshopでの作業が入ってくるのは,多少鬱陶しいことではあろうが,これをしないとOCRの成果は全く得られないのだから,結局はかなりの時間短縮を手にすることができるだろう。

 さて,このAdobe Photoshopの作業を回避する方法として考えられるのは,スキャンの解像度を300 x 300 dpiではなくて,600 x 600,さらには1200 x 1200は,どうだろうか。

以上,Sep. 19, 2022記。

3.2 より高解像度では

 600 x 600 (dpi)でスキャンすると,3.9MBになる。1200 x 1200 (dpi)になるとかなりの時間を要する。まるで動いていないかのようで,12.3MBにもなる。Googl DriveのOCRは2MBまでだから,使えない。
 400 x 400 (dpi)はどうだろう,1.9MB。300と所用時間に大きな差を感じない。プレビュー.appで回転すると2MBになる。図6には400 (dpi)と600 (dpi)のスキャン画像ファイルについて,そのファイルサイズを比較している。
 図6には,議論を進める上で意味のあると思われるファイルにa_〜c_を頭に追加した。
a_Scan…400.jpgは,400 (dpi)でスキャンして,プレビューで回転した画像ファイル2MBである。
b_Scan…400_cutonly_black&white.jpgは,a_ファイルをAdobe Photoshopで必要部分を切り取って,2階調化したもの796kBである。
c_Scan…600_cut.jpgは,600 (dpi)でスキャンして,プレビューで回転して必要部分を切り取った画像ファイル758kBである。
図6の残りの5ファイルについては,この研究を進める上で棄却すべきものか,すでに論じた300 (dpi)のもので,とにかく,説明は省く。

 図6が示しているのは,結局のところ,b_とc_について,Google DriveのOCR処理をする価値はあると思っている。

図6 幾つかのスキャンファイル

 2階調化によって,何故か,ファイルサイズが増大し,600 (dpi)については,図6の下から3番目のファイルのように,2.3MBとなって,Google Driveが受け付けない。それで2階調化の前の段階でのファイルc_のOCRを実行すると結果は,300 (dpi)の図4と同様の結果になった。
 で,400 (dpi)の2階調化したファイルb_のOCR結果と,300 (dpi)の二階調化したファイルのOCR結果(図5)の間を比較することになる。
 下記は,400 (dpi) の2階調化したファイルのOCR結果の最初の部分であり,原本との関係を( )で示す。

————————————————
古への 神代の奇しを(を→き)物語り朝な夕なに御魂砕きっ (っ→つ)
心血を(を→も)洞(洞→涸)れなんとす骨 色(骨 色→骨も)肉 色(肉 色→肉も)砕けなんとす物語 して
こまごまと真 理を説き (空白→し)神の響(響→書)拝読する たび開 (空白→く)神国
(空白→物)語聞く度毎に我が胸は避(避→蓮)の 蘇(蘇→薫)る 心地と(と→こ)そすれ
(空白→わが胸の曇り)を払 小(小→ふ) 物 語読む 人 と(と→こ) そ は神の 御 使
村肝の心の壁(壁→塵)を払はんと暇ある毎に物語り(空白→読む)
(空白→古へのひじりも)未だ説 かさ(さ→ざ) り し鉢物船蔵(鉢物船蔵→弥勒胎蔵)の 吾は道 説 く
(空白→天火水) 地結ぶ紫色の宝玉は弥勒神示 (空白→の)物語なり」( 」→削除)————————————————

 300 (dpi)と逐次比較することは,ここではしないが,400 (dpi)でスキャンすることでかなりOCR処理結果が向上している。

おわりに

 以上から,今後は,400 (dpi)でスキャンして,Adobe Photoshopで切り抜きと2階調化を実施した方が良いという結果になった。

以上,Sep. 23, 2022記




Windows machineでのスクリーンショットをmacで使う how to use “screenshots on my computer” on mac

はじめに

 ウィンドウズマシーンでのスクリーンショットをmacで使う場合,これまではUSBドライバーで移動してきた。そしてその画像をフォトショップで処理などして,自分自身と共同研究者との間の意思疎通を図るべく,未公開のWebコンテンツを作成してきた。

 いま,他のテーマのWebコンテンツ作成の際に,macのファインダーに現れる共有フォルダのmycomputerから直接,dropboxのscreenshotsに入れないか試してみて,使えることがわかったので,ここにその方法を掲載する。

macからWindows machineのscreenshotを使う

 そのファイルを次に示す。macのスクリーンショットとウィンドウズのスクリーンショットでは解像度に違いがあり,全画面を使用する場合,Adobe Photoshopでの作業の必要性がない。画質を落とすと,スタンダードサイズの字はかなり読みにくくなる。macでは全画面スクリーンショットは10MBほどになる。図1のスクリーンショットは200kB余りである。

図1 ウィンドウズマシーンの全画面スクリーンショット例

 図2には,macのファインダー上のウィンドウズマシーンのスクリーンショットを示している。

図2 macのファインダーで見るウィンドウズマシーン内のスクリーンショット

 図2に示したスクリーンショットをクリックすると,プレビューワーが画像を表示してくれる。これを「書き出」してmac上に保存すればよい。Adobe Photoshopで読み込む場合は,ファイル>開く,と編集できる。ぼくの現在のmac上のPhotoshopの状況(mac上に数ヶ月開けっ放し)かも知れない。ドラッグアンドドロップではファイルの存在が否定される。

おわりに

 この作業をしていて,Windows mouseのmycomputerが見えている,つまり共有,されているのに,図4のメッセージが出て,Usersを見つけることができない症状が続いた。
 リスタートしたら回復する可能性が高いが,使用中macの多数のウィンドウを廃棄したくなく,久しぶりにアップルケアに電話した。担当者によるとぼくのmacは電話サポートが昨年に終了していると言う。その後の,アンケートには,「ビンテージ キャピタリスト」のコメントをした。アップルは自らの製品をVintage化してしまう。七年なのか。アップルストアでもビンテージになったから部品が無いというのを過去2回聞いている。32年に亘るユーザーなのにねえ。投資額は300万円は超える。最初のマシーンはFx。

図3 Usersまでしか見えない

図4 見つからないメッセージ

 自らリスタートして,一応,command+option+p+rを実施して,共有は回復した。

以上,Sep. 13, 14, 2022記。