2015年05月31日

オンラインOCRを試してみました(2)

 オンラインOCRを試してみました(1)で試したサイトは、私の使途には一長一短だったのですが、一つに絞ってみました。
 OnlineOCRです。

onlineocr_01.png


 
 他と比べた場合の特長(私の用途としては「欠点」)である「行末の改行コードが入らない」ということもありますが、wordファイル(他にEXCELも可)として保存され、その場合レイアウトも元の画像ファイルと同じであるという利点があります。

 Wordファイルとしてダウンロードすることで、すぐに「校正」ができ、読み取り間違いによるスペリングの間違いも発見できます。文の途中(もちろん行末でも)に改行コードを入れると、次の文字が「大文字でない」ということでエラー候補になってしまうので、これは大変に助かります。

 各行末の改行はマクロで入れることにしました。

Sub Macro1()
'
' Macro1 Macro
'
Selection.EndKey Unit:=wdLine
Selection.TypeText Text:=Chr(11)
' Selection.MoveDown Unit:=wdLine, Count:=1
'
End Sub


onlineocr_02.png


 たまたまなのか、いつものことなのか分かりませんが、行末の"-"(単語の途中で改行する場合)が、"¬"となります。

onlineocr_04.png


 この"¬"を事前にマクロで処理できるといいのですが、私の知識ではできません。
 Wordの編集画面上では"-"と表示され、検索でも"¬"では見つかりません。

 ただし、テキストファイルとして保存(Shift-JIS)しようとすると、Shift-JISとして保存出来ないので、その存在が分かります。

onlineocr_03.png


 この行末の"¬"は後ろに改行コードを入れると消えてしまうので、改行コードを入れるマクロを実行する前に"-"に置換しておく必要があります。これは手作業…。

 とにかく、簡単な作業で
1 マクロを使って、簡単に各行末で改行が入れられ、Shift-JISコードで保存出来る。
2 行末の改行を入れずに保存しても、行末にはspaceが入っている。行末の語と次の行頭の語がくっついてしまうことはない。
3 オリジナルと同じレイアウトで、wordファイルとして保存出来る。画像ファイルにあった行末の"-"は自動的に削除される。(削除すべきでない場合もあるので、要注意)
という利点のあるファイル作成がでります。

 そしてOCRとして一番肝心なこと…文字の読み間違えは特殊なフォント以外は、ほぼ皆無といえそうです。


タグ:OCR
posted by kewpie at 12:03| Comment(0) | TrackBack(0) | ファイル作成
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/136027243
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック
コメントの投稿について
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
 これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。