画像利用可能なオリジナル資料からKindle本 Kindle books from scanned images of original books

はじめに

 父の本をキンドル本で普及させたいと思っている。すでに出版社から出版されたものではなく,優先されるべきものの一つは,日本タニハ文化研究所刊としていわば自費出版されたものである。国立国会図書館にはあるが,国会図書館デジタルコレクションには登録されていない。他の本サイトのページにもこの件は書いている。このキンドル本化で広報をして必要な研究機関や研究者があれば無料でお譲りしたいと思っている。

 29年前の父昇天後,タニハには年十五回のタニハ祭以外,人が居ず,M氏は鍵を持っていたので,父の生前執筆中の机上にあった大作(『霊界物語大事典』ヒトの巻の続刊)の原稿などを盗んだ(さびしいー)。繰り返し通った形跡がある。父が元気な時も父は泥棒が居ると周囲の方々に洩らしていた。ぼくも聞いたことがある。M氏から大作をものにすると,この10年ほど年賀状などで連絡があった。彼が残念ながら犯人であることはわかっていた。ぼくがお手伝いすると伝えていたが「遠慮」するとのことであった。亡くなった時にと思ったが,8月15日に昨年秋にすでに亡くなっていたという情報があった。妹さんはその場所から比較的遠くに暮らしておられて高齢でもあり,司法書士に依頼して氏の生活拠点は完全に処分されたらしい。これがわかったのは,8月19日である。残念であった。生前に行くべきであった。父の生涯をかけた研鑽の結果が心ない者によってドブに捨てられた。

 ぼくには特に年齢という点と未だわが専門の研究を諦めていないので時間的制約があって,多量の書籍やペーバーをデジタルテキスト化するのは難しい。欧米の研究者が自らの専門書をPDFでも販売しているので,スキャンして(画像)PDFにして出版すればいいと考えていたが,欧米の研究書のPDF出版はもともとテキストデータがあり,それをPDF出版したものであり,当方の現状とは大いに異なる。

 kindle direct publishing (KDP)のWebサイトを見ると,日本語PDFに基づく電子出版はいまだ(?)対応していないと言う。本の書式設定 電子書籍の原稿リソース 電子書籍の原稿ではどのようなファイル形式がサポートされていますか? では,PDFについて,「Adobe PDF (PDF) 注: サポートされる PDF ファイルは、 英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、カタロニア語、ガリシア語、バスク語で書かれたものだけです。」とある。この説明はテキストデータに基づくPDF対応のことであって,父の場合は画像PDFになってしまうので,結局この段落の議論は意味がない。

 別の観点で,キンドル パブリッシング ガイドラインに従った実践的なページ の1.a Kindle Create (PC 版) のインストール に示したように,Kindle Createは日本語には対応していない。

 ところが,いくつかのサイトで,内容は不確かなのだが,日本語でも使用可能だという。テキストを認識させるのではなく,画像であれば,言語に依存しない。より踏み込めば,既存書籍をスキャンして画像PDFを作成する場合には,言語に依存しない。

 Kindle Createで作成すべく,調べていたら,日本語対応しているKindle Comic Creatorなるものがあることを知った。この機能はKindle Createからすると低いようではあるが,日本語対応しているという点で,Kindle Comic Creatorに軍配が上がるようにも思った。いまだ,試行錯誤のなかにある。

1 Kindle Createか Kindle Comic Creatorによる日本語Kindle本の出版

1.1 よい例が

 そういえばと,以前購入したKindle本を思い出した。この3月だったか,娘の小学生の息子と埼玉県の小都市の本屋さんに行って,本人の関心のある本を買った。ぼくもその本を買ったが読む気になれず,Kindle本も買って,寝ながらiPhoneで読もうと思った。まずiPadで見ると,見開き2ページが1ページになっていて,絵と文字が適宜配列されている。どうしてこんな読みにくい本を作ったのか,不思議であった。その理由が,わかった。英語圏の著者が,多言語で本を出すという戦略もあったのではと想像される。もともとの絵本を翻訳してただスキャンするだけだ。これならキンドルの貧弱な言語サポートとは,関係がなくなる。

 Scratch 3.0対応版 10才からはじめるScratchプログラミング図鑑 単行本 – 2020/9/29 これはiPhoneで見ると,見開き2ページではなくて,自動で1ページごとに区分されている。そして,章の初めには,テーマを示すページが用意されている。ぼくもこの形はマネる価値があるように思う。最初に図1(37kB)のように章番号,次に図2(43kB)のように章タイトル,そして章の最初の記述が図3(96kB)である。元のPDFは画像のようだが拡大しても字はスムーズで,ルビなども入っている。悪く無い。直近の図番号のあとの( )内の数字はぼくがKindle本をスクリーンショットを撮ってフォトショップで画質を落とした際のものである。このようにすれば,図1と図2についてはテキストモードのPDFページであり,目次作成やリンク設定も簡単にできる。章節項などまで,この形を取れば,多少利用しやすくなるであろう。なお,図1〜3の各ページ最上段には幾つかのツールが並ぶが,このの右から二つ目の本を開いたような記号をクリックすると見開きになる。リフロー型とはちがい,単なる画像なので,「絵本」の見開きページ番号がそのまま生かされる。図3の左上にはページ番号「12」が見えている。
 なお,この本がKindle Createを使ったものか,KindleComic Createを利用したものかはわからない。

図1 章番号
図2 章タイトル
図3 まず章の最初のページ

以上,Aug. 24, 2022記。

1.2 Kindle Createか,Kindle Comic Creatorか

 すでに述べたように,Kindle Createは日本語には対応しないが,だましだまし使えそうという例に出会ったのではあるが,ぼくは確かめていない。なお,キンドルからの説明は次のリンクページにあって,日本語には対応しないことが記されている。

ユーザー ガイド Kindle パブリッシング・ガイドライン はじめに コンテンツを Kindle で利用可能にするまでのサイクル

 このリンクページに示されている3種のうち,日本語が対応できるのは,単に画像として扱う「プリント・レプリカ電子書籍」である。次のように説明されている。

「多くの画像や複雑な書式設定を含む本の場合は、PDF がプリント・レプリカ電子書籍に変換されます。プリント・レプリカ電子書籍は、印刷版の本の複雑な書式とレイアウトを維持しつつ、標準の Kindle 本のさまざまなメリットを提供しますが、読者は文字サイズを変更できず、特定のデバイス上でしか利用できません。スクリーン リーダーや再生可能な点字表示を使用して読むこともできません。」,要するに単なる画像だ。

 で,この限界を受け容れるのであれば,日本語に対応しているKindleComic Creatorが良いと考えて良いだろう。

2 Kindle Comic Creator のmacでの利用

 本の書式設定 ツールとリソース Kindle Comic Creator で,mac用のアプリをダウンロードできる。このアプリは2012年から公開されているもので,Kindle Comic Creator v1.1 for Intel Mac (OSX 10.6 以降)に対応している。図4に示すように,現在公開されているものは2014年秋に出たものらしい。

図4 Kindle Comic Creator for mac 2012

 このアプリで作成したものは,ツールとリソース Kindle Previewer で確認する必要があるが,MacOS 10.15 以降に対応するものでぼくの環境では利用できず,Windows 8対応の方を利用することになる。
 Kindle Comic Creatorの使用法は,次のサイト https://kc2.s3.amazonaws.com/KC2UserGuide_ja.pdf に公開されている。Kindle Comic Creatorの使い方(複数画像をKindle出版用mobiファイルに変換)には目次作成法が試行錯誤の上で記されている。上記のキンドルのKC2UserGuide_ja.pdfとの関係をまずは見る必要があろう。
 このユーザーガイドを全部閲覧した結果を次に示す。これはぼくが期待したものではなかった。このKindle Comic Creatorはキンドル端末での閲覧編集ツールなのだ。その編集結果は,mobiファイルとして出力できるので,Kindle本としてアップロードすることもできる。
 「Kindle 本ファイルの書式設定サポートの更新 – リフロー型ファイルでの MOBI サポートは 2021 年 6 月 28 日に終了」という記事がある。固定レイアウトのKindle本の出版には、引き続き「mobi形式」が使えるそうであるが,滅び行くファイル形式である。2021年6月28日以降、Amazonが使用を推奨するリフロー型のKindle本で使えるファイル形式は次の3つで,EPUB,KPF (Kindle Create ファイル),DOC/DOCX (Microsoft Word ファイル)。Wordファイルは,Kindle ViewerでKPFに出力する必要があり,結局,EPUBとKPFである。
 キンドルのサイトで,テキスト ポップアップ付きの固定レイアウトの本を作成する を見ると,「固定レイアウトの本ではテキストのリフローはサポートされないため、本全体が固定レイアウト形式に適している場合にのみ、固定レイアウトを使用してください。本の一部だけをリフロー可能にしたり、部分的に固定レイアウトにすることはできません。Kindle Kid’s Book Creator を使用して、このタイプの電子書籍を作成する方法の詳細については、こちらを参照してください。」とある。
 ぼくは,画像(画像PDF)にホットスポットを作成して,そこに目次などからリンクするという発想を持って,KindleComic Creatorのマニュアルを閲覧した。どこにもそういう機能は記されていない。まあ,Scratch 3.0対応版 10才からはじめるScratchプログラミング図鑑 単行本 – 2020/9/29,の図1〜3の例のような使い方はできるが,リンク機能を使うことができないのである。各ページ(画像)に対応する目次作成には,Kindle Comic Creatorで電子書籍化する方法(+目次攻略法)ナビゲーション ドキュメントを使用して目次を作成する が参考になる。キンドル本出版については,Kindle Comic Creatorの使い方(複数画像をKindle出版用mobiファイルに変換) Kindle出版一歩前!KDPにmobiファイルをアップロードする方法 参照。

以上,Aug. 25記, 29追記, 2022。

3 Microsoft Wordで既存書籍スキャンデータからキンドル本出版の枠組み

 結局のところ,紙媒体スキャンデータを使ってキンドル出版するには,種々のリンクが簡単に張れ,目次作成も自動化されているMicrosoft Wordがベストのように思える。問題はできたWordファイルの重さであるが,やってみないとわからない。スキャン画像の画質を如何に適切に処理するかにかかっているだろう。

 出口聖師著『愛善健康法』(木庭次守編,大本本部青年部発行,非売品,1971年発行)を例に,実験したい。幅106mm,高さ175mmの縦長の冊子で,全62ページである。印字は明瞭でスキャン画像を使うことが可能である。用紙サイズ一覧表(プリンパ)によれば,新書判 106mm x 173mmに該当する。以下,仕事の流れを示してみたい。
以上,Aug. 29, 2022記。

⒜ 既存書籍のスキャニング 失敗例

 ブラザープリンターMFC-J6997CDWで本体からUSBメモリーに保存する形でスキャニングを実施した。サイズはA6で新書判を開いて頭を奥の辺に押し込む形で実施できた。ファイル形式はJPEG,他はデフォルト値を使用した。16:17〜16:30(13分間),ファイル(78kB〜170kB)数は37個で自動に作成されたフォルダーBROTHERに収納されていた。これまでは,プリンターでまずは印刷したあとで,その印刷物からFujitu Scan snap S1500MでまとめてPDFファイルを作成していたが,紙媒体に印刷するのではなく,何らかの画像処理が必要と考えて,このブラザープリンターで画像を出力する形をとった。

 次の段階で気付いたのであるが,最下部30mmほどを切り落としていた(手抜き,希望的観測)。さらに,macの「写真」アプリで90度時計回りさせるとファイルが大きくなり,例えば図5では424kB,図6では424kBになった。Adobe Photoshopで低画質で書き出した結果,それぞれのファイルは,105kB,80kBになった。なお,最初のスキャンした際のファイルサイズはそれぞれ147kB,121kBであった。字の読みやすさは,もちろん原本の方が良い。Kindle本として耐えられない解像度ではないが,デフォルトの200dpiから300dpiに変えて,別途実行した。

図5 目次部分 未処理
図6 目次と本文 contrast max

⒝ 成功例(本来やるべき形だ)

 直接プリンター本体を使ってスキャンすると,その結果を見ることができないので,まずはmacで処理した方が良いだろう。実験して,図7〜9に示した条件設定が適切とわかった。図7右の「すべての設定」ボタンをクリックし,基本設定(図8)と原稿補正(図9)について設定する。他の3オプションは選択していない。この得られた条件で図6にあたる見開きページをスキャンした結果が図10である。

図7 ブラザーのスキャナトップページ
図8 オプションの基本設定
図9 オプションの原稿補正

 

図10 図7〜9の環境設定でスキャンした結果 

 図10(203kB)と図6(103kB)を比べると字の読みやすさ,美しさは図10が優っている。両図の元々のファイルサイズは,791kB,496kBであったが,低画質化して図10と図6が得られたのである。図10の画質であれば,Wordで読み込んでも重くならないし,使用に耐えうるものと考えられる。

 ここで得た環境設定のもと,プリンター本体でこの書籍をスキャンすることになる。

3.2 Adobe Photoshop で画像処理

 スキャンの際の原稿設置についてはマニュアル通りに実行した。図11がスキャン画像で,図12はPhotoshopで処理したものである。図12の画像の情報をみると,1156px x 2056pxとなっている。全ページの画像サイズを統一することも考えたが,Wordでは,各ページを続けないで,改ページを挟むし,各ページの初めにリンクテキストを配置するので,それぞれのページで必要な部分を切り抜いていけば良いと考えた。

図11 1609画像 128kB
図12  f1 同整頓済み 63kB

 目次作成機能は,キンドル版に対応するのはウィンドウズ版ワードであるが,原稿の作成はmacで実行し,最終的な目次作成をWindows版で実行したいと考えている。順々に作業を進めて行くと,思わぬ落とし穴が想定されるので,さしあたり用意した冒頭から7枚の画像を使ってワード原稿を作成し,キンドルプレビューワーで確認したいと思う。

4 ワードでの画像ページを使ったKindle本作成実験の前に

 読者には鬱陶しいだろうけど,当方の誤りを避けるために,scanned_file_nos.の四桁と,印刷本のページとの関係をここに示す。ここで使用するスキャン画像は,1608, 1609, 1610, 1613, 1614の5ファイル。関係ファイルと中味との関係を次に整理する。
 1608 内表紙。1609 導入ページ f1。1610 導入ページ f2, f3。1611, 1612, 1613 目次ページ f4〜f8。1613 本文 p. 1。1614 本文 p. 2, p. 3。
 目次ページはワードで入力してハイパーリンクを作成することになる。
 Wordファイルは縦書きにする。画像を挿入して,この,レイアウト>文字列の折り返し,を「上下」に設定し,レイアウト>位置,については,縦書きと図の位置との関係が未だ理解できず,実行する過程で明らかになったことをここに示したい。
 この本は,導入歌から目次までの8ページと,その後の62ページからなり,ページ番号が別々に振られて,いずれも算用数字が使われている。言い換えると,pp. 1-8が二重に存在しているのである。この本には,瑞月道歌 pp. 1-3,目次 pp. 4-8,そして「信仰と病気」項目以下でpp. 1-62とページ番号が振られており,目次には瑞月道歌も掲載されているがページ数が省略されているので,この本からすると,ページ数のダブリの問題が回避されているのである。ページの画像を使うのでそのまま使うとページ番号に混乱が生じる。目次の画像は使わないので,瑞月道歌の3ページ分だけが問題となる。テキストでリンクを貼るのでこの3ページについては画像のページ数を消した方が良いだろう。

 コンテンツの配列を考えてみる。
① 内表紙画像を使おうと当初思ったが,ハイパーリンク作成の必要性もあって,テキスト入力する(このテキストは,ハイパーリンクのターゲットになる)。<改ページ>
② 瑞月道歌(レベル1): 医師〜避(レベル2)(このテキストは,ハイパーリンクのターゲットになる),そして,f1イメージ,<改ページ>
③ 病気平癒を祈る歌(レベル2)(このテキストは,ハイパーリンクのターゲットになる),そして,f2イメージ,<改ページ>
④ 健康な家(レベル2)(このテキストは,ハイパーリンクのターゲットになる),そして,f3イメージ,<改ページ>
⑤ 目次(レベル1)(このテキストは,ハイパーリンクのターゲットになる),ハードリターン,そして,テキストを続ける。
瑞月道歌としては,医師〜避,病気平癒を祈る歌,健康な家,の三項目あるが,本の配列からすると,目次に入れるのは混乱のもととなるから,目次から外す。
信仰と病気 pp. 1-3  <改行ソフトリターン>
霊界物語 p. 3  <改行ソフトリターン>
心と健康 pp. 3-4  <改行ソフトリターン>
などなど。
⑥ 信仰と病気(このテキストは,ハイパーリンクのターゲットになる),本文 p. 1イメージ,テキスト「次ページに続く」,<改ページ>,本文 p. 2イメージ,テキスト「次ページに続く」,<改ページ>
⑦ (続き)信仰と病気,霊界物語,心と健康<改行ソフトリターン>,本文 p. 3イメージ,テキスト「次ページに続く」,<改ページ>
 という形になる。このあと,本文 p. 4イメージが続いて行くが,まずはここまでを,Word原稿を作成し,キンドルプレビューワーで表示して,問題がなければ, .kpf の形で出力することになる。

以上,Sep. 10, 2022記。

5 WordそしてPreview

⒜ macでのWordの利用である。形式 > 文書のレイアウトで,文書パネルを開いて,<文字数と行数> タブで,文字方向:縦長,グリッド:行数だけ指定する,フォントの設定:メイリオ,などを一応指定した。

⒝ 画像の配置など。挿入して,画像を右クリックして,「配置とサイズ」を選択するとパネルが表示される。「文字列の折り返し」タブでは「折り返しの種類と配置」の行内を選ぶ。行内でないと,画像が頁枠内で簡単に動いてしまう。
 なお,カーソルは↓矢印キーで画像の下まで続くが,その次の行に移動するには,ハードリターンが必要である。そして,改ページ,を指定する。

⒞ 内表紙の出口聖師は12ポで配置はそのまま,愛善健康法は24ポで中央揃え。

⒟ アウトラインを設定すること。例えば,瑞月道歌は18ポで見出しレベル1,医師〜避は12ポで見出しレベル2。

⒠ 本文中の目次の各項目にハイバーリンクを貼る際に,ターゲットを見出しとするか,ブックマークにするか。労力としては前者にメリットがある。そして,Kindle本では見出しが目次ページに掲載される。というわけで,ターゲットの各項目名は見出しレベル3にしよう。この見出しは項目単位ではなくて,ページ単位なので,項目が頭にある読者には混乱を与えると思われる。そのため,目次でも,各ページにハイパーリンクを作成しよう。

⒡ p. 3までを画像を挿入して,ウィンドウズでの作業を実施することにした。日本語ファイル名を英字ファイル名 Aizenkenkoho_Sep13_22としUSBドライバーに保存して,ウィンドウズmousマシーンへ。Kindle Previewer 3で開くが,言語設定で,Japanese (Right to Left)を開いた。作成された表示には,目次がない。忘れていた。Windowsで目次を作らないと行けない。

⒢ Word2016からまずは英字する前の日本語ファイル名のファイルを開く。メーンメニューの,参考資料>目次の更新,を選ぶと,「更新する目次がありません。目次を挿入するには,[参考資料]タブから目次を挿入できます。」と出てくる。
 キンドル パブリッシング ガイドラインに従った実践的なページ の, 3.4 Windows マシンで目次作成(成功),を参照して,目次作成などを学ぶ必要がある。自分で作成しながら,もう忘れていた。結構の作業が必要だ。

図13 Windows Word2016上で

 図13は,3.4 Windows マシンで目次作成(成功)を使って目次作成が完了した時点の様子である。これは,スサノヲの歌の際にも問題になったが,見出し中にルビがあると,Wordの段階で,文面に違和感が生じる。図13の左のペーンのように,ルビは( )付きで漢字の下方に示した方が良いと思う。さらに,目次を見ると,ロジックとしては良い案だと思ったが,p.1〜p.4を項目名の後にした方が良いようである。図13のメーンペーンは,目次にあたる部分であり,自動で作成されたもので,ここを触っては駄目で,本文の方を編集することになる。実際にルビを削除してみると,この一種のタイトル行にはルビは不要のようだ。画像が同ページに表示されているからである。
 左ペーン「目次」部分で,「信仰と病気」と「(続)信仰と病気」の頭を比較すると,「(続)信仰と病気」が半角下がっているように見える。この対処法であるが,両端揃え,が適当で,この書式の変更では解決しない。全角( )を半角 ( )にすると揃うことがわかった。
 参考資料タブで,目次の更新をした結果の,トップの内容頁のスクリーンショットが次の図14である。

図14 改善した見出しと内容ページ

 さて,Kindle Previewer 3で見たのが次の図15である。

図15 Previewerでの表示 Sep. 14-1

 目次前の瑞月道歌の3ページがすべて見出しタイトルと画像ページが分離表現されている。目次より後のページは問題がない。何か設定に差があるようだ。目次の各項目に設定したハイパーリンクは機能している。図14の右側の1ページ表示はリンクで跳んだ結果である。この図15の解像度は低く,画像ページの文字はほぼ読めない。図14の左ペーンでの▽目次以下の見出しはレベル1でもレベル3であっても同レベルに並んでいるので,特にレベル1については,《 》で括った方がいいようだ。
 新たな修正をして,図16にはそのWordファイル,図17にはPreviewを示す。Previewでは画像の字が読みにくくなっている。この傾向がKindle本にまで反映するのかどうか,わからない。

図16 Wordでは画像の文字がクリア
図17 Previewでは画像の文字が呆けている

 いくつか対策したが,Previewでのサイズ7以上では図15と同様,タイトル行と画像が離れてしまう。ハードリターンとソフトリターンの問題ではない。直接ハイパーリンクを作成するしか方法がないが。ドキュメント内のハイパーリンクではアウトラインでの見出しとブックマークの選択肢がある。そこで,イメージにブックマークを付けることができるか,確認したい。

 挿入 > ブックマーク,で画像にもブックマークを付けることができる。まずは画像を選んで,ブックマーク,を実行する。ブックマーク名として,半角( ),スペース,句読点は受け付けなかった。タイトル行は意味が無いので,アウトライン表示して地の文にして,アウトラインモードから離れて,削除することになる。その結果の一部を次に図17に示す。

図17 画像にブックマークを貼って,タイトル行を削除

 目次から画像のブックマークへのジャンプは成功した。ただ,画質がWordから劣化するかどうかはわからない。kpfの形でエキスポートして,プレビューしたが,改善はしない。これはKDPのサイトで仮準備をして,その上でプレビューしてみないとわからない。実行するしかないな。

以上,Sep. 14, 2022記。

6 画像解像度とファイルの重さなど

 上記の結果から,問題点としてはスキャン画像の文字の劣化に対する対処法を知る必要がある。解像度がいい場合,ファイルが重すぎて,Kindle本として非現実的になる。
 いまの問題はWordの設定とは関係ない。ただ一応,macとWindows上のWord2016の画像表示設定を確認しておこう。Word内の画像を高画質で維持したい の解説を参考にする。当該Wordファイルを開いて,ファイル > オプション > 詳細設定 > イメージのサイズと画質,で見ると,ファイル内のイメージを圧縮しない,という項目にチェックが入っていない。なお,既定の解像度の設定には,330ppiと表示されているが,意味がわからないが,取り込んだ画像の解像度が330ppiよりも大きい時にはイメージを圧縮すると言うことなのか。もしそうなら,チェックを入れていなくても圧縮はされていないということになる。
 変更してもWordの表示は変わらない。Kindle Previewer 3でこのファイルを読み込んで表示を見たが図17と同様,呆けている。なお,Wordのファイルサイズは595kB,kpfファイルは1,375kBと変わらない。このWordファイルでは6枚の画像が含まれ,その合計は588kBなので,Wordファイルになって,7kB(=595-588)しか増えていないことがわかる。

図18 KDPでプレビューした

 KDPに入ってこのkpfをアップロードして,画像の呆け具合を確認してみよう。
1 Kindle本の詳細
 本のタイトル:愛善健康法,ローマ字:Aizen Health Management Method,レーベル:教養,cultural accomplishments,著者:出口王仁三郎,Deguchi Onisaburo,編者:木庭次守,Koba Tsugimori,カテゴリー:キンドルのリストが狭量なので,適切なものを選ぶことができない。一応,教育 > 社会人教育,にしておく。
2 Kindle本のコンテンツ
 DRMを有効,ページを読む方向:右から左(縦書き),アップロード:Aizenkenkoho_Sep.14-5.kpf,Kindle本のプレビューを実行した。表紙はまだ作成していない。

 Kindle Preview 3では呆けていたものが,KDPに入ってプレビューすると,Word内の画像の解像度が再現された。というわけで,ワード原稿の画像に依存することが明らかとなった。
 次にはこの愛善健康法を画像で作成した場合にどの程度のファイルサイズになるのか。そしてどの程度であれば許されるのか,表示速度はどうなるのか,という問題になる。

以上,Sep. 16, 2022記。

「おわりに」替えて OCRに期待

 ここで,おわりに,だ。スキャンした元ファイルだけで14MBで,この1/3としても4MBほどになる。出来上がるWordファイルは4.5MBぐらいか。それからkpfファイルを作成すると10MBほどになるだろうか。コンテンツとしては,105mmm x 175mmの60ページ余の印刷本にしては,大容量になってしまっている。
 出版する側としては読者奉仕の感覚であっても,読者から拒否されてしまう。この実験を通じて,既存出版物をスキャンしてその画像を使ってキンドル本を出す行為は不適切と言わざるを得ないことがわかった。今後の方針を定める上で,大変参考になった。まあ,スキャンしてテキスト化する場合はOCRを使うかどうか,という方向性ぐらいだろう。
 数十年前にOCRに関心があってA4スキャナーで取り込んでテキスト化をする実験をしていた。何故そんなことをしていたのか,記憶に無い。いまや,OCR技術の進展はかなりのものだろう。一応,調べてみるか?

次のページに続く OCRに期待して

以上,Sep. 18, 2022記。