2024年08月20日

ハードサブから複数言語のSRTファイルを作る(4)〜読み取りミスの再修正

 Subtitle Extractorを使って、映像中のハードサブをOCRによってテキスト化するという作業を全48話にわたって、全てし終えました。
 中国語としての間違いは私には見つけられませんが、突然1バイトの数字やアルファベット、そして、このシリーズの字幕では使われない句読点や括弧など明らかなミスは、できあがったSRTファイルをテキストエディターで開いて、映像の該当箇所も確認しながら、目視によって取り除きました。
 どうしても見落としがあり、間違いは残っているのが自覚できました。
 同じ方法で再度全部を見直して修正するのは嫌なので、手抜きの方法を考えてみました。

subextract_correct01.jpg

 もともとあるハードサブのすぐ下に、Subtitle Extractorで取得したsrtファイルの文字データを表示させ、これもハードサブとして、新たな動画を作ります。
 そしてできあがった動画をSubtitle Extractorに送り込み、再びハードサブをテキストとして抽出します。

 間違いがなければ、SRTファイルの全体にわたって、例えば

705
00:37:39,500 --> 00:37:40,750
大哥干一个
大哥干一个

というふうに、同じ字幕が2行ずつ抽出されるはずです。

 一方、前回または今回、読み取りのミスがあれば、2行に違いが出来、それは比較的容易に発見できます。

 やってみると、予想以上に多くの「違い」が見つかりました。
 上の例では、
705
00:37:39,500 --> 00:37:40,750
大哥干一个
一个

706
00:37:40,750 --> 00:37:41,250
大哥干一个

実は、これは字幕データとして問題ありません。OCRの際のタイムラグにより、元のハードサブと新たなハードサブに表示の時間差があるためです。
707
00:37:41,500 --> 00:37:43,000
一会儿要吃晚饭了
-会儿要吃晚饭了
 これはだめです。
 先頭の文字が漢数字の「一」ですが、読み取って作られたSRTファイルでは、1バイトの「-」となっています。実際のその映像で確かめると…。

subextract_correct02.jpg

 SRTファイルが1バイトの「-」となっていました。
「一会儿要吃晚饭了」と
「-会儿要吃晚饭了」とでは、翻訳が異なってしまいます。

 このようにして、ミスをかなりの割合で発見できそうですが、「2つのハードサブ」の映像をエンコードするのにかなり時間がかかります。そして、これをSubtitle Extractorで文字抽出するのに費用もかかります。

 間違いを極限まで減らしても、そもそも中国語の機械翻訳は困難なので、間違いを残したまま、一応、締めくくりとしたいと思います。
 48話もあるので、気が向いたときに動画のエディター内で2つの字幕を比較することでもある程度間違いを見つけることが出来るように思っています。




posted by kewpie at 11:01| Comment(0) | TrackBack(0) | パソコン
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/191034967
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック