2015年05月18日

オンラインOCRを試してみました(1)

 印刷物の文字をデジタルデータにしたいときには、OCRソフトを使うか、Acrobatなどで代用できます。

ocr01.gif


 しかし、インターネットを利用してオンラインのOCRを利用すれば、専用ソフトウェアのない環境でもデジタル変換ができます。


 そこで、オンラインでOCRをしてくれるサービスを探し、実際に使ってみました。(今回は英文のみ)

 最初に試したのは、Free OCRというサイトです。
http://www.free-ocr.com/

1 最初にスキャナで作った画像ファイルを指定して、
2 言語を指定し、
3 captchaと呼ばれる、人間が利用しているのを示すための文字入力を行います。

ocr02.png


4 アップロードと変換が、バーグラフで示されます。

ocr03.png


5 変換が終わると、ウインドウ上部にテキストが表示されます。
  その下には次のファイルを受け入れるためのフォームが表示されます。

ocr04.png


 特長として
1 文の途中で改行されている場合、改行が入るので、もとのレイアウトとまあまあ比較しやすい。
2 文字コードはUnicode
3 大きな欠点として、変換がアップロードが終わったと思われるタイミングで、「captchaの入力が間違えている」として、再入力を求められる。
4 通常のアルファベットでも、特殊な文字コードを割り当てられるときがある。(→後述
などです。

 次に試したのは、Free Online OCRというサイトです。
https://www.newocr.com/

 手順です。
1 ファイルを指定し、アップロードします。
2 アップロードされた画像を見ながら、言語(複数指定可)などを指定します。その際に、画像の回転やコラムのレイアウト、さらにトリミング(クロップ)もできます。

ocr06.png


3 「OCR」のボタンを押して少し待つと、表示されていた画像の下に、変換されたテキストデータが表示されます。

ocr07.png


4 必要があれば、オンラインで修正もできます。

 特長として、
1 人間が入力していることを示す認証は必要ない。
2 文字コードはUnicode。
3 文の途中でも改行コードが入る。
4 オンラインでの編集(修正)ができる。
5 複数の言語を動じ指定出来る。
などです。

 さらに別のサイトも使ってみました。ONLINE OCRというサイトです。
http://www.onlineocr.net/

 手順は、
1 ファイルを指定して、アップロード

ocr08.png


2 言語と出力フォーマット(ここではテキスト)を指定する。

ocr09.png

 
3 chaptchaコードを入力して、CONVERTボタンを押す。

ocr10.png
 

となります。
 特長として、
1 (画像上での)行末でも文の途中と認識され改行コードが入らない。その際、スペースが挿入され、文末と次の文頭の単語がくっついてしまうことはない。
2 文字コードはASCII。
3 出力フォーマットを、プレーンテキスト・ワード・セクセルの中から選べる。
4 chaptchaコードは見やすく文字数も少ないので、入力は面倒でない。
などです。
 いずれも、他のサイトにはあまりない特長です。

 ただ、私としては元の印刷物の通りの位置で改行をしたデータがほしかったので、あとから手作業で改行を入れるのが面倒でした。その一方、ほしいデータはShift-JISだったので、その点の作業は不要でした。
 まさに一長一短、あちらを立てればこちらが立たず、です。

 最終的には文の途中でも改行が入ったデータがほしかったのですが、不便な点もあります。
 変換ミスを見つけるのに、WORDでスペルチェックをしたのですが、改行後の先頭の文字は大文字でないと全てエラーと疑われてしまうからです。

 Shitt-JISは、多くの目的に使えるので便利ですが、一方、Unicord出出力されたものを、手作業でShift-JISに変換するのはなかなか大変です。ダブル(またはシングル)コーテーションやアポストロフィなどがほとんどですが、ハイフンは、Unicord独自のハイフンもShift-JISのハイフンも横幅が同じなので、見た目では区別がつきません。

 面白かったのは、Free OCRから出力されたテキストデータをwordでスペルチェックをしたときに、明らかに正しい綴りを「間違い」と指摘される単語があったことです。

 specificallyという単語に対して、wordが「間違い」と指摘するのです。

ocr11.png


 その部分のフォントサイズを拡大の上、隣に同じ単語を打ち込んでみました。

ocr12.png


 不思議なことにこちらには、スペリングミスを示す赤い破線が付きません。ただ、よく見ると、「fi」の部分が異なります。
 同じような事が、別の箇所でもありました

ocr13.png


 それぞれの文字コードを調べてみました。

ocr14.png


 「fi」「fl」と2文字の組み合わせと見えていたものが、実はUnicodeでは1文字でした。
 印刷物では「fi」「fl」の組み合わせをそれぞれくっつける場合はありますが、一文字扱いにするのはデジタルデータとしては大きな問題があります。
fi→U:FB02「fi」   
fl→FB03「fl」

 印刷物として利用する場合でさえ、フォントによっては表示出来ません。

 驚いたことに、このようなUnicodeの「組み合わせ文字」(?)は他にもありました。
 Meiryoフォントです。

ocr15.png


 ff→U:FB00「ff」   
ffi→FB03「ffi」   
ffl→FB04「ffl」


 文字数の少ない英文のOCRでも、なかなか取り扱いに注意が必要です。

-----
追記

http://www.i2ocr.com/
も特長があります。アップロードした画像としてのデータとOCR処理後のテキストが隣り合って表示されるので、チェックするのに便利です。

ocr16.png


------
追記

 さらに実際に使い込んでみました。
オンラインOCRを試してみました(2)




posted by kewpie at 02:00| Comment(0) | TrackBack(0) | ファイル作成
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/131198939
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック
コメントの投稿について
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
 これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。