スキャンして得たPDFを編集する editing a PDF obtained through scanning

はじめに

 ブラザーの複合機の自動給紙で得たPDFを編集したい。時々,編集したいという思いが出てまた消える。この際,ちょっとお勉強したい。

追記 Feb. 12, 2025: この投稿を作成した際には,ブラザーの複合機の自動給紙の際のスキャニング結果に不満があって,かつて持っていて捨てたScansnapの購入を考えたりしていたが,ブラザーの複合機がなかなかの優れものであることがわかった。

1. PDF/Aは不適

  Adobeラーニングのチュートリアルを参照した。このチュートリアルで使われているAcrobatはちょっと古いのでぼくの場合を。

① Acrobatでファイルを開く。すべてのツール > PDFを編集。なのだが,ぼくのPDFはPDF/Aで保存しているのでこのままでは読み取り専用になっているので,右上の「編集を有効」のボタンをクリックする。なぜか,いま,作業しているファイルは反応しない。
 いま対象にしているPDFには画像はないが,雑誌の表ページ(1ページ目)の汚れを消したいとい思いがある。そこで1ページ目を選択して,Control + クリック,したのであるが,メニューが出てきて,「画像の編集」を選択したら,なーんと,全80ページの変換が始まった。編集可能なテキストと画像に変換,となって,かなりの時間を要しているのである。そして,次には,フォント情報を並べ替えています,となーる。

 このチュートリアルは,PDFのテキスト部分と画像部分を区別して,画像の編集をするという流れになっているようだが,どうもPDF/Aのために,どうにもならなくなっているようなのだ。

図1 PDF/Aを読み込んだところ pp. 27-28
図2 「編集を有効にする」実行結果 pp. 27-28

 図1のpp. 27-28が,図2ではテキストの流れだけでなく,テキストがあった場所も何故か空白ができている。この原因は,PDF/Aに対して,編集を有効にする,を実行したためである。この試行を通じて,PDF/Aを編集するのは危険であることがわかった。編集したいのなら,PDF/Aではなく,素のPDFで保存した方が良いようだ。いい勉強になった。

 また,PDFの編集にチャレンジしたいと思う。

以上,2025年2月10日。

 PDF/Aは使わないことが判明した。とにかく重い。第四号を裁断してブラザー複合機の自動給紙で,PDF/AではなくPDFで出力した。第四号は表紙を入れて85ページで,創刊号は同80ページ。第四号PDFは55.5MB,創刊号PDF/Aは533.8MB。なんとPDF/Aは,PDFの10倍も容量を食っている。ネット利用の観点から,話にならない。

以上,2025年2月12日。

2. JPGを編集してPDFに

 学術雑誌『大本教學』コンテンツ > 2.2 本を裁断して電子化 にも種々,前日の実験結果を示している。ここでは本日の成果を。

 第四号で大成功だったので,その理由を表紙をフォトショップでクリーニングした結果ではないか,と想像した。そこで創刊号についても,図3のように表紙をクリーニングして,これを含めて3ページ分を自動給紙でスキャンした。その結果が,図4である。全くの勘違い。まあ当然の結果なんだけどね。

図3 創刊号の表紙をクリーニング
図4 3ページ分をスキャンしても

 創刊号のブラザー複合機の自動給紙でのスキャン結果には,原本の黄ばみの陰影が反映されている。何故か草色になっている。これをPhotoshopでなんとかしたいと考えた。Google検索すると,

————————————————

earch Labs | AI による概要

詳細

Photoshopで特定の色の部分を消去するには、「色域指定」機能を使用します。

手順は次のとおりです。

  1. メニューバーの「選択範囲」→「色域指定」をクリックします。
  2. 画像上の特定の色をクリックして範囲指定します。
  3. 許容量を設定します。
  4. メニューバーの「選択範囲」→「選択範囲を反転」で、選択範囲を反転します。
  5. コピー&ペースト(ctrl+c&ctrl+v)で切り抜き完了です。

また、特定の色の部分を消去するには、「コンテンツに応じた塗りつぶし」機能を使用することもできます。

手順は次のとおりです。

  1. 削除したい部分に選択範囲を設定します。

メニューバーの「編集」→「コンテンツに応じた塗りつぶし」をクリックします。サンプリングしたい箇所を選択します。選択できたら右のメニューバーの下の「OK」ボタンをクリックします。写真の上で右クリックして「選択を解除」します

————————————————

とある。ソースのコンテンツよりもこのまとめがいいように思う。

 で,「1. メニューバーの「選択範囲」→「色域指定」をクリックします。

2. 画像上の特定の色をクリックして範囲指定します。3. 許容量を設定します。」これだけでできる。図5の表示はなかなかよく陰影を反映している。スポイド+でさらに色指定した結果が図6である。ほぼ完璧である。

図5 色域指定の許容量設定
図6 色域指定の追加許容量設定

 図7のように印刷した。その出力結果が図8のmacの前に並べた2枚の右手の紙である。満足ゆく結果であるが,80ページそれぞれにこの作業を施すことはできない。AIでタスク処理すれば可能なのだろうけどね。

図7 プリント設定
図8 コピーと出力の関係

 まあ,創刊号については,表紙と次のページだけクリーニングしたjpgファイルを使ってAcrobatでbindingしてアップロードしたい。なお,スキャンした結果のjpgファイルの画像サイズは1724pixels x 2475 pixelsなので,表紙をこれに近いサイズに切り取った。

以上,2025年2月12日。

3. PDF/Aの災

 最初にスキャンしたのが創刊号であった。手持ちのものでは最も黄ばんでいた。ブラザー複合機で,その地紋を除去する選択肢に気づかなかった。そして,PDF/Aがテキスト検索が可能なファイル形式と勘違いしたことも災であった。

 第四号は地色に問題がなくスムーズにPDFにした。PDF/Aの問題に気づいてからのスキャンであった。創刊号のスキャン結果は受け入れ難かったが表紙と次のページだけクリーンングをして,PDF/Aから出力したjpgファイルに継ぎ足して,bindingしたら,536.9MBにもなった。第四号の10倍の容量である。

 で,PDF/Aファイルから出力したjpgファイルの容量は8MBにもなる。第四号のPDFから出力したjpgファイルは800kBにしかならない。PDF/Aから出力したjpgを使う限り,意味なく容量に責められるのである。それに気づいて,再度,創刊号の紙媒体のスキャンを実行したのである。

4. 地色(地紋)除去

 ブラザー複合機でのスキャン設定に,図9のように,原稿補正 > 裏写り・地紋除去,があり,この除去レベルをタップすると,図10のように除去レベル設定のスライダーがある。図10のようにかなり高い位置に設定したのであるが,これによって,創刊号の強い黄ばみは除去されてしまったのである。

図9 原稿補正 > 裏写り・地紋除去
図10 除去レベル設定のスライダー

 図11には,保存時の圧縮オプションがある。文書スキャン解像度を300dpiにしていたので,この選択が可能であった。高圧縮しない場合,ファイル容量は63.5MBにもなるので,高圧縮を選ぶと4.8MBとかなり軽くなった。ところが,図13のように,高圧縮すると文字が擦れている。高圧縮しないと図12のように読み易い。というわけで,高圧縮は避けるべきである。

図11 保存ファイルの高圧縮PDF設定 
図12 高圧縮なし
図13 高圧縮選択

 と,まあ,なんとも,情けない試行錯誤であった。今後,ぼくの,古い資料の電子化手法は,ましになるだろう。

以上,2025年2月12日。

5. 写真を高画質で

 第十三号の電子化に関わって。全部で131ページからと数えて,連続スキャンし,jpeg出力を実施して,数があっていることを確かめた。スキャン操作にまずは問題ないということだ。

 表紙のクリーニング(図14)は簡単だが,図15と16のように,写真画像は難しい。元図は王仁三郎の絵画である。

図14 右は原本,左はクリーニング後
図15 右は原本,左はスキャン結果の画像
図16 右は原本,左はスキャン結果の画像

 経験的に,ブラザー複合機でのスキャンはフラットベッドのものが優れているので,連続給紙のものが使えないので,このだるまさんのような絵だけ,フラットベッドでやり直した。

 除去レベルが影響するかと考えて,まずは除去レベル最高(図17, 図18の右)で,次に除去レベル中間で(図18の右)。図18から,除去レベル最高にした方がいい画像が得られることがわかった。

図17 スキャン結果が見えるが実際に得られたものとは違うので注意が必要だ
図18 左は除去レベル最高(2.9MB)で,右は除去レベル中間(2.7MB)で

 図21に見えるように,除去レベル最高,1200dpiが最もいい結果が得られた。

図19 解像度1200dpi
図20 除去レベル最高で
図21 左は除去レベル最高300dpiで,中央は除去レベル中間300dpiで,そして右は除去レベル最高1200dpi

 図21から,1200dpiがいいんだけど,出力されたファイルの容量は44MBもある。『大本教學』第十三号のPDFをネット上に掲載する図としては無理がある。そこで除去レベル最高300dpのファイルを使うことにしたが画質が不満なので,色域指定でだるまさんの周辺のもともと無地の部分の汚れを取りたいと思った。

 図22〜24では,色域指定をして許容量最大にした結果を示している。

図22 まずは選択範囲 > 色域指定
図23 許容量を最高したらいい感じ
図24 画像を表示

 図25〜27について。色域指定過程で,得られた画像をコピーして,新たな書類を開いてペーストした結果が図27である。

図25 図24でOKボタンをタップ後に表示された画像が選択状態にある
図26 右手に元画像(除去レベル最高300dpi)を左手にはこの作業結果
図27 画質が高いと2.6MBだ

 色域指定での作業で,結局,図29の中央がまあ,左手よりもよくなっている。容量はほぼ同じだ。

図27 2.6MBのファイルを見て
図28 画質を最低にすると1.1MB
図29 左手は元画像(除去レベル最高300dpi),中央は色域指定で最高画質,右手は最低画質

 図30, 31は,これまで得ただるまさんの画像を自動給紙で得たjpegファイル群に差し替えた。

図30 色域指定で最高画質のものを自動給紙で得た画像と置き換えるべく,ファイル名を変更して
図31 自動給紙で得たjpgファイル群に差し替えた

 そして,Acrobat ProでbindingsしてPDFを作成し,アップロードしたのである。100.4MBになった。自動給紙のだるまさんの画像は1.1MBだったが,この作業で得られただるまさんは2.7MBになった。両ファイルともサイズは同じで1724×2467(pixels)だった。

以上,2025年2月13日。

6. jpg編集後のPDF印刷について

図32 我が書斎前で今日来訪のジョウビタキ。向かって左を向いている。

 スキャンの際,どうしても不適切なページが発生するので,スキャニングのあと,ページごとのjpgファイルを出力することになる。PDFでは出力しないのである。で,ぼくのパソコンと複合機との関係かもしれないが注意点がある。

 Photoshopで編集すると,画像をbinding(ファイルサイズは三択で小,default,高精度だが,アップロードするファイルとしてはdefaultが適当, 第十五号では200.7MBだった)して得たPDFを表示すると,写真中心の画像ページの画面サイズが大きくなる。変更前と比べて容量が変わらなくても,そしてインフォメーションで画像サイズが同じなのに,なのだ。図32, 33にその例を示している。

 

図33 PDF画像を表示
図34 同

 裁断した用紙を自動給紙にかけた場合,縦に挿入しても,一部が横長に回転するページがある。この回転の理由は給紙の際に数度ほど回転した場合,一気に横長画像になってしまう。当方のブラザー複合機の特性かもしれない。

 Photoshopで九十度回転するだけで,図34のように,画像表示サイズが大きくなる。図33のような聖師と二代様の場合,フラットベッドの方のスキャナー機能を使ってスキャンして単体の画像ファイルを作り,自動給紙で得た画像ファイルに差し替えている。

 pp. 1-4 (ファイル名は,-000〜-003)を試しに印刷すると,pp. 1-4のうち,p. 2が抜け落ちた。図3に見える石碑がp.2に該当する。抜け落ちたプリントアウトを図36の右手に置いている。p.1の裏が白紙になっている。で,図35でのプリントアウトの際に,「PDFのページサイズに合わせて用紙を選択」オプションを外す,と,図36の左手のように石碑を印刷することができたのである。フラットベッドで再スキャンしたのはp. 2, 3であったが,p. 3の方は問題がなかった。

図35 印刷オプションで「PDFのページサイズに合わせて用紙を選択」オプションを外す
図36 石碑ページがスルーされるか(右),スルーされないか(左)

 macでは,「写真」にスキャンして得た全jpgファイルを読み込んで,画像の方向やずれを確かめたい。白紙部分を除いて全ページ数を前もって確認して,スキャン結果のjpg数と合っているかを確認する。用紙が重なってスキャンされる場合があり,その場合,スキャン結果は原稿数より少なくなる。

 もちろん,スキャン前にページの連続性を手作業で確認することは大切だ。この第十五号については,一つの用紙を回転したまま,ぼくは裁断してしまった。スキャン前のチェックで判明したのだけど,裁断前にチェックすべきであった。

以上,2025年2月15日。

 アドビに解決法があった。次のページである。

【無料】PDFのページサイズを変更する方法(ファイル容量の圧縮方法も)

 

 このうち,macでの作業は,MacでPDFのページサイズを変更する方法 にある。Windows PCにも対応ソフトがあったが,マックでは,プレビューである。プレビュー,ってすごい。とにかく,アドビのこの説明を使って,上記のPDFを構成する画像のコマの表示サイズを統一することができたのである。

 この内容を繰り返すのは馬鹿げているが,ぼくが当初理解できなかった点を踏まえて,ここに示す。

【手順1】「プレビュー」アプリで該当のPDFファイルを開く
【手順2】「プレビュー」アプリ内の「ファイル」から「プリント」を選択する


【手順3】「詳細を表示」→ 「画面サイズ」を選択し、変更したいサイズを選択する
 この手順3はかなり古いバージョンのままで,「詳細を表示」,という選択肢は現在なくて,【手順2】を実行すれば,「詳細を表示」なしに,次の図に類似した画面表示になる。

図37 アドビから

 図37の用紙サイズの欄で,ぼくの場合は,A5を選んだ。で,印刷する場合は,これでいいのだが,ぼくが求めているのは,PDFのコマサイズの統一であり,●PDFをMac内に保存する場合,
に進むことになる。

 図37左下隅の「PDF」をクリックし、表示されたメニューから「PDFとして保存」をクリックする。サイズ変更後のPDFファイルを保存する場所とファイル名を入力し,「保存」をクリックする。これで、ページサイズ変更後のPDFをMac内に保存できる。すごいと思う。印刷様式設定してそれが組み込まれた文書が新たに出来上がる。PDF形式を賞賛したい。

以上,2025年2月17日。