2015年09月11日

DVDの字幕テキスト化にはDVDSubEditがいい(1)

 DVD-VIDEOの字幕をテキスト化するには、SubRipが定番です。類似のソフトを探してみましたが、SubRipが優れています。しかし、本当は学習機能によって、手作業で画像としての文字にテキストとしての文字を教えてやれば、どんどん認識率が高まるはずなのですが、なかなか高まりません。(もちろん、同じ1枚のDVDの同じフォント)
 そして、もう少し使い勝手のいいソフトを見つけました。DVDSubEditです。

dvdsubedit01.png


 本来は、VOBファイルに組み込まれている字幕画像やメニューのハイライトボタンに手を加えるためのソフトであるようです。(DVDSubEdit allows you to visualize and make modifications to the subpics (subtitles or button highlights in menus) directly inside the VOB files, without the need to demux and remux the subpic stream..)

 しかし、その画像としての字幕を検索するためにOCR機能を持っているのです。
 そして、.srtファイルとして出力できるのです。

dvdsubedit02.png


 ただ、本来、字幕画像のテキスト化のためのソフトではありませんので、OCRとしての性能や設定は十分とは言えません。したがって、.srtファイルとして出力されたテキストファイルを手作業で修正をすることになります。
 Wの文字(大文字も小文字も)、I(大文字)やl(小文字)、1(数字)の認識精度が悪いようです。これは仕方ないかも知れません。辞書を持っていれば、推測が可能でしょうが、辞書データはないようです。

 最初はWordのスペルチェックで誤認識部分を検索して修正してみましたが、見落としが多いようです。Wordのスペルチェックは、アルファベットの文字列については「怪しい」と認識してくれますが、DVDSubEditの誤認識で多い、Wを[/,]などと認識してしまう、記号に対しては無関心です。
 したがって、Wordのスペルチェックを利用して修正をした場合は、再度先頭から、スペルチェックの見落としを手作業("目"作業?)で探して修正をしなければなりません。

http://plaza.rakuten.co.jp/blacktigercat/diary/201502070000/
には、DVDSubEditの「BMPファイルとして出力をする」機能を利用して、OCRソフトで字幕画像をテキストにするという方法が紹介されています。これなら日本語でもテキスト化ができますし、英語でも認識率は高いのがメリットです。
 私が持っている「読んde!!ココ」でやってみました。

dvdsubedit03.png

 
 認識率は高いようです。
 問題は、複数の画像ファイルの連続処理ができないため
1 読み込み後に、適切な解像度に一つ一つ変更しなければならない
2 テキストを一括して一つのファイルに保存出来ないので、テキスト化したものをコピー&ペーストで、一つのファイルに手作業でまとめていかなければならない。
ということです。古い(アップデートも、販売も行われていない)ものですから仕方ありません。

http://plaza.rakuten.co.jp/blacktigercat/diary/201502070000/
で紹介されている「読み取り革命15」の試用版でやってみました。

dvdsubedit04.png


 「読んde!!ココ」!の問題点
1 解像度を上げなければならない
2 連続処理ができない
が解消されています。

 ハイパーチェッカーという表示も、最後のチェックに便利です。

dvdsubedit05.png




posted by kewpie at 11:59| Comment(0) | TrackBack(0) | パソコン
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/163361628
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック
コメントの投稿について
○お名前とコメント欄の記入は必須です。
○メールアドレスは任意です。記入されても公開はされません。管理人のみに知らされます。
○スパム防止のため、
・ホームページアドレス欄への記入はできません。
・コメント欄にURLは記入できません。
・スパムと思われる語を記入できません。
 これらをしようとすると、最終的に投稿完了できません。
○投稿完了後に、管理人の判断でスパムと判断した投稿は削除させていただきます。