『愛善健康法』のKindle本化1 a kindle book of “Aizen-kenkoho” part 1

はじめに  この『愛善健康法』のKindle本への道は,OCRに期待して でも解説している。木庭眞さんから,デジタル化のサポートが頂けるようなので,下準備を行っている。父の著作は,ある時期,東京都南分所に属しておられる鈴木智子さんの邦文タイプによるサポートで実現していた,と推定している。その成果はタニハに現在も残っている。 ぼくが小学四年生の頃か,こどもの日にどこかに連れて行けと駄々をこねて,自宅から10分ほどの父の仕事場があった「みずほ会館」に連れられて行った。そこでおそらく,いさみ寿司から昼食として寿司でも取ってもらったように思う。不満であった。眞さんも一緒だったのではないか。父の机がある大きな部屋からは保津川の氾濫原を経て牛松山が正面に見える。この大部屋の手前には,外から光が入らない比較的小さな部屋があって,鈴木倶子さんが忙しく邦文タイプを打っておられた。入る時,優しい挨拶を頂いたように思うが。ノーベル賞の湯川秀樹の息子さんも父のサポートをされていた。何か質問に来られて,知らない方だったので父に聞いたら,そういう答であった。 その日は父の頭の白髪抜きをして過ごした。こんなに抜いて大丈夫かと聞いて問題ないというような回答があったことも思い出される。抜いた1/4ぐらいは黒かったのでは無いか。これも聖師の教えに基づくものなのか? 眞さんには鈴木智子さんの邦文タイプ結果の『霊界物語の大精神』のデジタル化をまずはお願いしようと思ったが,成果がすぐには出ず,やる気を無くされてもと思い,正規の印刷物で字数も少ない『愛善健康法』を先にと今日,考えた。眞さんにデジタル化の全過程を知って頂くべく,ここに手法を残すことにした。 追記 Oct. 8, 2022: 松田宏さんから鈴木倶子さんの写真などが届いた。鈴木倶子さんの消息がわからない。写真1と写真2はいずれも,みずほ会館で,1955年当時。写真2の倶子さんは,松田宏さんが東京から訪ねてこられたからか,すごく嬉しそう。上段左端は木庭次守(38歳),上段中央はのちの本部長櫻井重雄さんか。写真1の部屋は,鈴木倶子さんが邦文タイプを打っておられた部屋ではないかと思う。 松田さんから送られたコピー写真を,BrotherのA3対応複合機でスキャンしたが1200dpiでも,写真2では顔のテカりが大きかった。富士通のScansnapは簡易のスキャナー(最大600dpi)という印象であったが,自然なスキャン画像で大きな違いがあった。このことから考えると,次に続く「1 Adobe PhotoshopによるOCR前の準備」以下で述べたBrotherの複合機を使うよりも,このBrother複合機で紙コピーして(A4に縮小),Scansnapで一気にスキャンした方が,画質も効率もより優れたコンテンツを得られる可能性がある。 1 Adobe PhotoshopによるOCR前の準備  OCRに期待して で本のスキャン手法などについては記している。眞さんが複合機を持っていないのであれば,ぼくがこの章の作業は実施してゆくことになるだろう。このスキャンは300 (dpi)で実施していた。 スキャンファイル数は40点で,これをおよそ次のプロセスで切り取りと2階調化を実施した。1 イメージ > 画像の回転 > 角度入力 > 時計回りか反時計回り。2 範囲指定して,イメージ > 切り抜き。3 見開きページ中央の綴じ代部分は,編集 > 消去。4 切り取った全域を選んで,イメージ > 色調補正 > 2階調化 目分量だが,濃くすると見出しがつぶれるなどする。5 ファイル > 別名で保存。ファイル名称をページ番号などに替えて,保存するフォルダを指定し,高画質(8)を選ぶ。 スキャンしたファイルのうち,表紙,内表紙は,基本的には表紙などを作成するのに使用する。  ocrに供するファイルを,Aizen-kenkoho_for_OCRというフォルダに入れた。この本は目次などにページ1〜8があり,その後,ページ1〜62が続くので,前者のページにはfを冠している。つまり前者のページはpf1.jpgなどとし,後者のページ48と49の見開きファイル名は,p48_49.jpgなどとなっている。 2 OCR作業対象のファイル群をGoogle Driveにコピー 0 Google Driveを開く。1 すでに愛善健康法のフォルダがあり,その中にスキャンファイルが入っていたので全部削除した。2 My Driveを右クリックして,Folder uploadを選んで,macのファインダで,Aizen-kenkoho_for_OCRというフォルダを選ぶ。右下にアップロード過程が見え,完了すると,✅️が表示される。3 My Driveに戻って,愛善健康法のフォルダに,Aizen-kenkoho_for_OCRというフォルダをドラッグアンドドロップする。この中のファイルの配列はmacのファインダ内のものと一致している。 3 OCR作業  全36ファイルのOCR作業をして,Word文書で出力して,全部ダウンロードすることになる。このOCR作業は,OCRに期待して に記述している。  上記投稿に示しているが,次のようにする。1 各ファイルを右クリックして,Open with > Google Docs。2 File > Down load > Microsoft Word (docx),とすると,Word形式でダウンロードできる。3 Down loadフォルダ内のファイル群を新たにOCR_Wordというフォルダを作って,My Driveにアップロードする。4 そして,そのフォルダを,愛善健康法フォルダに移動する。 4 OCR結果の共有  OCRの結果の一例を図1と2に示す。本文の例が図1である。ルビは最初に抽出されている。本文の解読力はほぼ100%近い。図2は目次部分である。⋯⋯⋯⋯⋯で,かなりの混乱がある。OCR結果を無視して,自らテキスト入力した方が良いのは明らかである。Kindle本ではページの概念は無い。目次それぞれにリンクを設定するのが良いだろう。本文の各項目をレベル2かレベル3にして,目次部分ではリンクを設定するのがベストだ。この作業はぼくがしますので,一行毎に,1項目名を入力してください。本文の項目名も一行をとって,ハードリターンで,その説明の段落を作成してください。  Google Driveで,愛善健康法のフォルダ(これからは,\愛善健康法とします)を右クリックし,☃+ […]

OCRに期待して using OCR Tool in Google Drive

はじめに  スキャン画像をほぼそのまま使ってキンドル本を出すという考えで試行錯誤したがうまく行かなかった。画像利用可能なオリジナル資料からKindle本 がその内容である。OCRをネット検索した結果からすると,Google Driveに付属している機能が優れているようである。読み取り言語として,日本語にも対応している。ぼくはGoogle Driveの有料版100GBコースに入っており,このWebサイトのバックアップだけに利用してきた。現在20GBぐらいで,かなりの余裕があり,これを使わない手は無いだろう。 1 Google DriveでOCRツールを使う方法  使い方: 東京経済大学TKUメール > OCRの利用 Google Drive Help:PDF や写真のファイルをテキストに変換する 2 実際にやってみる 1 画像の回転はプレビュー.appで先の画像利用可能なオリジナル資料からKindle本 で取り扱った「愛善健康法」のスキャンファイルは 70 p.のものでブラザーのプリンターでスキャンしたファイル数は38個になる。これをPreviewすると,プリンターでのスキャン設定の問題ではあるが,すべて正位置と反時計回りで90度回転している。一気に回転する機能はAdobe Photoshopには無いので,macの写真.appを使ってみよう。極めて簡単,瞬時に終了。 で,元のフォルダが14.1MBが48.1MBと3.4倍に増大するが,個々のファイルは1.5MB以下なのでGoogle Drive Helpで示されている最大容量2MBよりは小さく問題はない。ただ,このスキャン対象の本は見開きで幅200mm x 高さ170mmほどで,かなり小さい。このpostingで試したい父の邦文タイプで作成された「簡易」印刷の書籍のサイズは見開きで,幅360mm x 高さ250mm程度であり,この写真.appを使うと1ファイルサイズは2MBを超えてしまう。写真.appは使えない。 さて,プレビュー.appを試してみた。全ファイルを入れたフォルダは13.6MBで何故か14.1MBよりも小さくなった。最大ファイルは417kBで,変化なし。Adobe Photoshopで種々の画像処理をしてもいいが,時間の無駄の可能性があるので,このまま,Google Driveに取り込もうと思う。 2 Google Driveへ⒜ ChromeまたはGoogleで,Driveを開く。⒝ My Driveを右クリックするとメニューが現れる。File uploadを選ぶと,ファインダ(またはエキスプローラー)でターゲットのファイルに行き着く。フォルダを選択することはできないが,フォルダ内に入って,全画像ファイルを一気に選択することができる。⒞ 他のテーマのファイル群と区別するために,My Driveの表示のすぐ上方にある +Newを選んで現れるメニューからNew folerを選択して,この新しいフォルダに名前をつけて,先ほどアップロードした画像ファイル群を移動した方が良いだろう。新しいフォルダを先に用意する方がいいかもしれない。⒠ 新しいフォルダに格納された個々の画像ファイルを一つ一つ選んでOCR化を実行してゆくことになる。個々のファイルを選んで右クリックするとメニューが現れる。Open with > Google Docsを実行する。その結果を次の図1に。    図1には読み取り結果の一部が見られるが,ほぼ脱落はない。ただ,瑞月道歌の次の最初のサブタイトル「医師(くすし)」が何故か脱落している。「病悩」のルビも脱落している。次のサブテーマの「薬物(くすり)」では,「物」が脱落している。などなど。原本を見ながら対照してゆけば問題はない。 ⒡ 図2ではこのOCRを保存する過程を示している。図1にもMicrosoft Wordのようなメニューが上段に現れているが,このFile > Download > Microsoft Word (.docx)を選ぶと,一つ一つのOCR処理結果をWordファイルの形で保存できるので,すこぶる都合が良い。  図3ではこのダウンロードされたファイルを開いた様子である。全画像ファイルのOCR処理結果をこのように整理することができる。 ⒢ Kindle本のMS Word原稿は縦書きであり,壊れたルビも復元する必要があるので,新たな縦書きに設定したWordファイルに,個々の出力結果を,「ペーストしてスタイルを合わせる」形で,まとめて行けば良いことになる。  『愛善健康法』のKindle本発行は,もう,楽々と,可能になった。ひたすらテキスト入力をしてゆくというboring situationは避けることができる。 3 邦文タイプの字の薄い本についてはどうだろうか 3.1 通常の解像度300 […]

Windows machineでのスクリーンショットをmacで使う how to use “screenshots on my computer” on mac

はじめに  ウィンドウズマシーンでのスクリーンショットをmacで使う場合,これまではUSBドライバーで移動してきた。そしてその画像をフォトショップで処理などして,自分自身と共同研究者との間の意思疎通を図るべく,未公開のWebコンテンツを作成してきた。  いま,他のテーマのWebコンテンツ作成の際に,macのファインダーに現れる共有フォルダのmycomputerから直接,dropboxのscreenshotsに入れないか試してみて,使えることがわかったので,ここにその方法を掲載する。 macからWindows machineのscreenshotを使う  そのファイルを次に示す。macのスクリーンショットとウィンドウズのスクリーンショットでは解像度に違いがあり,全画面を使用する場合,Adobe Photoshopでの作業の必要性がない。画質を落とすと,スタンダードサイズの字はかなり読みにくくなる。macでは全画面スクリーンショットは10MBほどになる。図1のスクリーンショットは200kB余りである。  図2には,macのファインダー上のウィンドウズマシーンのスクリーンショットを示している。  図2に示したスクリーンショットをクリックすると,プレビューワーが画像を表示してくれる。これを「書き出」してmac上に保存すればよい。Adobe Photoshopで読み込む場合は,ファイル>開く,と編集できる。ぼくの現在のmac上のPhotoshopの状況(mac上に数ヶ月開けっ放し)かも知れない。ドラッグアンドドロップではファイルの存在が否定される。 おわりに  この作業をしていて,Windows mouseのmycomputerが見えている,つまり共有,されているのに,図4のメッセージが出て,Usersを見つけることができない症状が続いた。 リスタートしたら回復する可能性が高いが,使用中macの多数のウィンドウを廃棄したくなく,久しぶりにアップルケアに電話した。担当者によるとぼくのmacは電話サポートが昨年に終了していると言う。その後の,アンケートには,「ビンテージ キャピタリスト」のコメントをした。アップルは自らの製品をVintage化してしまう。七年なのか。アップルストアでもビンテージになったから部品が無いというのを過去2回聞いている。32年に亘るユーザーなのにねえ。投資額は300万円は超える。最初のマシーンはFx。  自らリスタートして,一応,command+option+p+rを実施して,共有は回復した。 以上,Sep. 13, 14, 2022記。