OCRに期待して using OCR Tool in Google Drive
はじめに スキャン画像をほぼそのまま使ってキンドル本を出すという考えで試行錯誤したがうまく行かなかった。画像利用可能なオリジナル資料からKindle本 がその内容である。OCRをネット検索した結果からすると,Google Driveに付属している機能が優れているようである。読み取り言語として,日本語にも対応している。ぼくはGoogle Driveの有料版100GBコースに入っており,このWebサイトのバックアップだけに利用してきた。現在20GBぐらいで,かなりの余裕があり,これを使わない手は無いだろう。 1 Google DriveでOCRツールを使う方法 使い方: 東京経済大学TKUメール > OCRの利用 Google Drive Help:PDF や写真のファイルをテキストに変換する 2 実際にやってみる 1 画像の回転はプレビュー.appで先の画像利用可能なオリジナル資料からKindle本 で取り扱った「愛善健康法」のスキャンファイルは 70 p.のものでブラザーのプリンターでスキャンしたファイル数は38個になる。これをPreviewすると,プリンターでのスキャン設定の問題ではあるが,すべて正位置と反時計回りで90度回転している。一気に回転する機能はAdobe Photoshopには無いので,macの写真.appを使ってみよう。極めて簡単,瞬時に終了。 で,元のフォルダが14.1MBが48.1MBと3.4倍に増大するが,個々のファイルは1.5MB以下なのでGoogle Drive Helpで示されている最大容量2MBよりは小さく問題はない。ただ,このスキャン対象の本は見開きで幅200mm x 高さ170mmほどで,かなり小さい。このpostingで試したい父の邦文タイプで作成された「簡易」印刷の書籍のサイズは見開きで,幅360mm x 高さ250mm程度であり,この写真.appを使うと1ファイルサイズは2MBを超えてしまう。写真.appは使えない。 さて,プレビュー.appを試してみた。全ファイルを入れたフォルダは13.6MBで何故か14.1MBよりも小さくなった。最大ファイルは417kBで,変化なし。Adobe Photoshopで種々の画像処理をしてもいいが,時間の無駄の可能性があるので,このまま,Google Driveに取り込もうと思う。 2 Google Driveへ⒜ ChromeまたはGoogleで,Driveを開く。⒝ My Driveを右クリックするとメニューが現れる。File uploadを選ぶと,ファインダ(またはエキスプローラー)でターゲットのファイルに行き着く。フォルダを選択することはできないが,フォルダ内に入って,全画像ファイルを一気に選択することができる。⒞ 他のテーマのファイル群と区別するために,My Driveの表示のすぐ上方にある +Newを選んで現れるメニューからNew folerを選択して,この新しいフォルダに名前をつけて,先ほどアップロードした画像ファイル群を移動した方が良いだろう。新しいフォルダを先に用意する方がいいかもしれない。⒠ 新しいフォルダに格納された個々の画像ファイルを一つ一つ選んでOCR化を実行してゆくことになる。個々のファイルを選んで右クリックするとメニューが現れる。Open with > Google Docsを実行する。その結果を次の図1に。 図1には読み取り結果の一部が見られるが,ほぼ脱落はない。ただ,瑞月道歌の次の最初のサブタイトル「医師(くすし)」が何故か脱落している。「病悩」のルビも脱落している。次のサブテーマの「薬物(くすり)」では,「物」が脱落している。などなど。原本を見ながら対照してゆけば問題はない。 ⒡ 図2ではこのOCRを保存する過程を示している。図1にもMicrosoft Wordのようなメニューが上段に現れているが,このFile > Download > Microsoft Word (.docx)を選ぶと,一つ一つのOCR処理結果をWordファイルの形で保存できるので,すこぶる都合が良い。 図3ではこのダウンロードされたファイルを開いた様子である。全画像ファイルのOCR処理結果をこのように整理することができる。 ⒢ Kindle本のMS Word原稿は縦書きであり,壊れたルビも復元する必要があるので,新たな縦書きに設定したWordファイルに,個々の出力結果を,「ペーストしてスタイルを合わせる」形で,まとめて行けば良いことになる。 『愛善健康法』のKindle本発行は,もう,楽々と,可能になった。ひたすらテキスト入力をしてゆくというboring situationは避けることができる。 3 邦文タイプの字の薄い本についてはどうだろうか 3.1 通常の解像度300 […]