目的は、動画の字幕を読み取り、OCR処理をすることです。
長く使ってきたパソコンのOCRソフト「読んde!!ココ」も考えられますが、日本語にしか対応していません。今回は中国語が対象です。
最近使ったのは、テレサ・テンのNHKホールコンサートの中国語でのコメントを画面から読み取ってテキスト化するのに使っていて、使い物になることは分かっていました。
夜のヒットスタジオで、テレサ・テンが中森明菜を紹介するところです。どうしてここを読み取りたかったというと、ぎこちない日本語で一個所だけ、何と言っているのか分からなかったのです。
文字部分を範囲指定します。
白抜きの文字、しかもその輪郭がぼんやりとしているものです。色やシャープネスの調整もできます。
なかなかしっかりと認識してくれました。
有請在日本年轻女性当中最闪闪发先的 中森明莱朵
Google翻訳で英語にすると…。
Please, Akira Nakamori who is the brightest among young Japanese women
日本語だと…。
どうぞ、若い日本人女性の中で最も明るい中森晃
実際には、何と言っているかというと
「日本で若いの中、女性、一番明るい●●の、中森明菜さん!」
で、●●が聞き取れないのですが、結局、解決はしませんでした。(笑)
カメラで撮った新聞記事です。撮影状態が悪く、斜めになっています。
認識結果。
まあまあです。出先でスマホを使ってこれだけでも読み取れれば、御の字でしょう。もっと好条件で撮影すれば、認識率も高まると思います。