いずれも高精度ながらサービスごとにクセがある
今回紹介している自動文字起こしツールは、いずれも変換精度が高い。記事作成にあたって、ピックアップしたもの以外にも複数のツールを検証したが、この3本は群を抜く精度だった。
下の図は、それぞれの変換結果をまとめたもの。細切れになった文を1ブロックにまとめたりといった処理は行なったが、表記や句読点の位置は変換結果のままだ。赤い部分が正しく変換されなかった箇所だが、ほとんど存在しないことに気づくだろう。
CLOVA Noteでは「リノベ」という省略した言い回しがうまく認識されなかった以外は、おおむね正確に変換された。
Nottaもかなり精度が高い。このテストでは認識してもらえない箇所が出てしまったが、Nottaは聞き取りにくい声でも拾ってくれることが多い印象だ。
Word Onlineも、やはり変換精度は十分。「リフォーム工事」という言葉が正しく認識してもらえなかったのは残念だが、十分実用できるレベルだ。
この3つのツールの場合、話し手がハキハキとしゃべっていれば、誤認識はかなり少ない。変換後のテキストをざっと眺めるだけで、会話の内容を十分に汲み取れるレベルだ。
しかし、実際の会話は、理想的な喋り方ばかりとは限らない。語尾が小さい声になって聞き取れなかったり、言葉を言い間違えたりする。また、話が終わる前にほかの人が喋り出して、声が重なることもしばしばある。
こうした場面では、当然ながらどのツールも変換精度が落ちる。そして、この「聞き取りにくい部分をどうするか」で、各ツールの個性が出てくることに気づいた。
CLOVA Noteの場合、聞き取りにくい部分は比較的無視されやすい。元の録音状況が悪いと、ごっそりと会話が抜け落ちてしまうことがある。一方、Nottaは、聞き取りにくい音も可能な限り変換を試みる。しかし、うまく処理できずトンチンカンな変換になってしまい、それが理解を妨げる要因になることもある。
聞き取りにくい部分をもっとも高精度に変換してくれたのがWord Onlineだ。しかし、Word Onlineは「ああ」、「えええ」、「うん」など、相槌や意味のない言葉を漏れなく拾おうとするため、出来上がった文章が読みにくくなる点がネックだ。
ざっくりと内容をつかめればいいのであればCLOVA Note。なるべく抜け落ちを避けたいならNotta。読み解くのに時間がかかっても漏れのない文字起こしを望むならWord Onlineといったところだろうか。使う目的によって最適なツールは変わってきそうだ。