へとヘ - tar0log

今日日の印刷物はほぼ電子ファイルでの入稿になっているので、組版・印刷工程での校正（内校）はおそらく昔よりずいぶん楽になっている。（縦組／横組用の約物の混在や横転、改行・字下げの消失など、電子入稿から組んだ場合に発生しがちな特有の問題というのもあるにはあるが。）

出版済みの四六判単行本を10年後に文庫に組み替えるとか、A社で出ていた本をB社から出し直すといった場合、元の電子データがもはや出版社に存在しない場合がある。そういう場合は、既存の本をスキャンして OCR で電子化したデータから組版を行う。

OCR は文脈や語彙を理解せずに文字を認識するため、OCR 原稿では形が似た別字になってしまう場合がよくあり、内校は1文字ずつ全部見ることになって労力が増える。「荼毘に付す」が「茶毘に付す」になったり「ポーズ」が「ボ一ズ」になっていたりする。

今年の大学入試共通テストで「匂配」「科拳」といった誤字が問題文にあったとの報道があるが、これも原稿作成の段階で誰かが OCR を使ったのではと予想。

OCR 原稿で特に厄介なのが、ひらがなの「へ」とカタカナの「ヘ」が入れ替わる現象。判別が大変難しい。内校に PC が使える場合はワープロにコピペして、判別しやすいフォント・級数にして確認したりする。Mac の場合には小塚明朝が判別しやすい。

以下は最近校正した OCR 原稿からの抜粋を小塚明朝で表示したもの。官能小説なので「へ」を使う台詞がたくさん出てくる。原本では全てひらがなの「へ」だが、OCR 原稿では一部がカタカナの「ヘ」に置き換わってしまっている。どこでしょう。

正解はこちら。

このように脈絡なく突然混入してくるので OCR は油断できない。フォントによらず、ひらがなのへは2画目が下に凸の曲線、カタカナのヘは2画目が直線的か上に凸の曲線になる傾向があるのでそこで判別するくらいしかないが、ゴシックではほぼ見分けが付かない。