中国語としての間違いは私には見つけられませんが、突然1バイトの数字やアルファベット、そして、このシリーズの字幕では使われない句読点や括弧など明らかなミスは、できあがったSRTファイルをテキストエディターで開いて、映像の該当箇所も確認しながら、目視によって取り除きました。
どうしても見落としがあり、間違いは残っているのが自覚できました。
同じ方法で再度全部を見直して修正するのは嫌なので、手抜きの方法を考えてみました。
もともとあるハードサブのすぐ下に、Subtitle Extractorで取得したsrtファイルの文字データを表示させ、これもハードサブとして、新たな動画を作ります。
そしてできあがった動画をSubtitle Extractorに送り込み、再びハードサブをテキストとして抽出します。
間違いがなければ、SRTファイルの全体にわたって、例えば
705
00:37:39,500 --> 00:37:40,750
大哥干一个
大哥干一个
というふうに、同じ字幕が2行ずつ抽出されるはずです。
一方、前回または今回、読み取りのミスがあれば、2行に違いが出来、それは比較的容易に発見できます。
やってみると、予想以上に多くの「違い」が見つかりました。
上の例では、
705
00:37:39,500 --> 00:37:40,750
大哥干一个
一个
706
00:37:40,750 --> 00:37:41,250
大哥干一个
実は、これは字幕データとして問題ありません。OCRの際のタイムラグにより、元のハードサブと新たなハードサブに表示の時間差があるためです。
707これはだめです。
00:37:41,500 --> 00:37:43,000
一会儿要吃晚饭了
-会儿要吃晚饭了
先頭の文字が漢数字の「一」ですが、読み取って作られたSRTファイルでは、1バイトの「-」となっています。実際のその映像で確かめると…。
SRTファイルが1バイトの「-」となっていました。
「一会儿要吃晚饭了」と
「-会儿要吃晚饭了」とでは、翻訳が異なってしまいます。
このようにして、ミスをかなりの割合で発見できそうですが、「2つのハードサブ」の映像をエンコードするのにかなり時間がかかります。そして、これをSubtitle Extractorで文字抽出するのに費用もかかります。
間違いを極限まで減らしても、そもそも中国語の機械翻訳は困難なので、間違いを残したまま、一応、締めくくりとしたいと思います。
48話もあるので、気が向いたときに動画のエディター内で2つの字幕を比較することでもある程度間違いを見つけることが出来るように思っています。