2018年12月26日

OCRを越えたOCR

 印刷物の文字をデジタル化するときによく使うのがOCR(Optical Character Reader)ソフトですが、解像度は400dpi以上だとか、日本語は読み取り精度が低いとか、何かと条件には厳しいものがあります。まあ、仕方ないのですが…。

i-img1200x900-1543461934mueivi877436.jpg

 先日のこの記事の読み取りも、人の目では結構読み取れそうですが、パソコンのOCRではほぼ全滅と思われたので、最初からOCRは利用しませんでした。

 また、別の記事の読み取りをしてみました。
 オリジナルの解像度の画像です。

ocr01.png


 日本語だと言うことは一見して分かります。実は、このこと自体、驚きです。(どんな分析が脳の中で行われているのでしょう。)
 解像度を2倍にしてみます。ただし、原稿からの読み取りを2倍の解像度で行っているわけではなく、上の画像の解像度を2倍にするだけですので、情報量が増えるわけではありません。

ocr02.png


 見やすくなったような、変わらないような…。(笑)

 まず、部分的に読み取れるのはひらがなの部分です。画数の多い感じは潰れてしまって分かりません。
 実はこの記事は(も?)、テレサ・テンに関する雑誌の記事なので、「テレサ」というカタカナがいくつか見つかります。この点は、コンピューターのOCRでは読み取れないでしょうが、記事に関する情報を与えられた、言わば「ヒトOCR」ならではのものです。
 さらに加えて、この文章が添えられているのは、下町の商店街らしきところを手に品物を持って歩いているテレサ・テンであることが分かれば、文字の読み取りの助けになります。その場合、実は「文字」を読み取っているのではなく「言葉」や「文」を読み取っているのでしょう。
 写真情報だけでなく、読み取りの出来た語や文、それらの語や文がヒントになって他の箇所の読み取り(推測)が可能になります。
 例えば、最後の2行で手に持ったものを説明していますが、当初は「デンデンダイコ」しか分かりませんでしたが、2行目中央の「浅草見物」がヒントになって、最後の行に書かれているのが「雷おこし」だと分かります。

 以下、読み取った内容です。(ふりがなな略)

 ふだんは地味な服が好きなテレサが、今日
は春らしい装いで、浅草見物。「都心じゃ み
んな忙しそうだけど、ここではとっても楽し
そう」と下町情緒がすっかり気に入り、久
しぶりに童心にかえったテレサ。お母さんに
買ったおみやげは、なんとデンデンダイコと
雷おこしなのだ。

 実は2行目の「都心」が最後まで分からなかったのですが、職場の同僚に読み取って貰いました。

 コンピューターのOCRの上を行くヒトOCRです。AIによるOCRが発達すれば同じことが出来るようになるかも知れません。ただし、付加情報を与えれば、の話です。

posted by kewpie at 23:00| Comment(0) | TrackBack(0) | 言語・文字
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/185271426
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック
コメントの投稿について
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
 これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。