印刷物の文字をデジタルデータにしたいときには、OCRソフトを使うか、Acrobatなどで代用できます。
しかし、インターネットを利用してオンラインのOCRを利用すれば、専用ソフトウェアのない環境でもデジタル変換ができます。
そこで、オンラインでOCRをしてくれるサービスを探し、実際に使ってみました。(今回は英文のみ)
最初に試したのは、Free OCRというサイトです。
http://www.free-ocr.com/
1 最初にスキャナで作った画像ファイルを指定して、
2 言語を指定し、
3 captchaと呼ばれる、人間が利用しているのを示すための文字入力を行います。
4 アップロードと変換が、バーグラフで示されます。
5 変換が終わると、ウインドウ上部にテキストが表示されます。
その下には次のファイルを受け入れるためのフォームが表示されます。
特長として
1 文の途中で改行されている場合、改行が入るので、もとのレイアウトとまあまあ比較しやすい。
2 文字コードはUnicode
3 大きな欠点として、変換がアップロードが終わったと思われるタイミングで、「captchaの入力が間違えている」として、再入力を求められる。
4 通常のアルファベットでも、特殊な文字コードを割り当てられるときがある。(→後述)
などです。
次に試したのは、Free Online OCRというサイトです。
https://www.newocr.com/
手順です。
1 ファイルを指定し、アップロードします。
2 アップロードされた画像を見ながら、言語(複数指定可)などを指定します。その際に、画像の回転やコラムのレイアウト、さらにトリミング(クロップ)もできます。
3 「OCR」のボタンを押して少し待つと、表示されていた画像の下に、変換されたテキストデータが表示されます。
4 必要があれば、オンラインで修正もできます。
特長として、
1 人間が入力していることを示す認証は必要ない。
2 文字コードはUnicode。
3 文の途中でも改行コードが入る。
4 オンラインでの編集(修正)ができる。
5 複数の言語を動じ指定出来る。
などです。
さらに別のサイトも使ってみました。ONLINE OCRというサイトです。
http://www.onlineocr.net/
手順は、
1 ファイルを指定して、アップロード
2 言語と出力フォーマット(ここではテキスト)を指定する。
3 chaptchaコードを入力して、CONVERTボタンを押す。
となります。
特長として、
1 (画像上での)行末でも文の途中と認識され改行コードが入らない。その際、スペースが挿入され、文末と次の文頭の単語がくっついてしまうことはない。
2 文字コードはASCII。
3 出力フォーマットを、プレーンテキスト・ワード・セクセルの中から選べる。
4 chaptchaコードは見やすく文字数も少ないので、入力は面倒でない。
などです。
いずれも、他のサイトにはあまりない特長です。
ただ、私としては元の印刷物の通りの位置で改行をしたデータがほしかったので、あとから手作業で改行を入れるのが面倒でした。その一方、ほしいデータはShift-JISだったので、その点の作業は不要でした。
まさに一長一短、あちらを立てればこちらが立たず、です。
最終的には文の途中でも改行が入ったデータがほしかったのですが、不便な点もあります。
変換ミスを見つけるのに、WORDでスペルチェックをしたのですが、改行後の先頭の文字は大文字でないと全てエラーと疑われてしまうからです。
Shitt-JISは、多くの目的に使えるので便利ですが、一方、Unicord出出力されたものを、手作業でShift-JISに変換するのはなかなか大変です。ダブル(またはシングル)コーテーションやアポストロフィなどがほとんどですが、ハイフンは、Unicord独自のハイフンもShift-JISのハイフンも横幅が同じなので、見た目では区別がつきません。
面白かったのは、Free OCRから出力されたテキストデータをwordでスペルチェックをしたときに、明らかに正しい綴りを「間違い」と指摘される単語があったことです。
specificallyという単語に対して、wordが「間違い」と指摘するのです。
その部分のフォントサイズを拡大の上、隣に同じ単語を打ち込んでみました。
不思議なことにこちらには、スペリングミスを示す赤い破線が付きません。ただ、よく見ると、「fi」の部分が異なります。
同じような事が、別の箇所でもありました
それぞれの文字コードを調べてみました。
「fi」「fl」と2文字の組み合わせと見えていたものが、実はUnicodeでは1文字でした。
印刷物では「fi」「fl」の組み合わせをそれぞれくっつける場合はありますが、一文字扱いにするのはデジタルデータとしては大きな問題があります。
fi→U:FB02「fi」
fl→FB03「fl」
印刷物として利用する場合でさえ、フォントによっては表示出来ません。
驚いたことに、このようなUnicodeの「組み合わせ文字」(?)は他にもありました。
Meiryoフォントです。
ff→U:FB00「ff」
ffi→FB03「ffi」
ffl→FB04「ffl」
文字数の少ない英文のOCRでも、なかなか取り扱いに注意が必要です。
-----
追記
http://www.i2ocr.com/
も特長があります。アップロードした画像としてのデータとOCR処理後のテキストが隣り合って表示されるので、チェックするのに便利です。
------
追記
さらに実際に使い込んでみました。
オンラインOCRを試してみました(2)
2015年05月18日
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/131198939
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。
この記事へのトラックバック
http://blog.sakura.ne.jp/tb/131198939
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。
この記事へのトラックバック
コメントの投稿について
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。