この春に発売された、最新のAI音声合成技術を搭載した入力文字読み上げソフト『VOICEPEAK 商用可能 6ナレーターセット』(※以下、VOICEPEAK)。バラエティ豊かな6種類のナレーターが収録され、感情パラメータを用いた喜怒哀楽の表現やイントネーションの調整にも対応。そのあまりに自然な音声や明瞭なインターフェース、さらに商用利用可能で税込23,800円(ダウンロード版)という、業界の常識を覆す低価格が大きな話題を呼んでいる。

製作中の音声を公開したところ要望が殺到し、予定を繰り上げて発売に至ったという『VOICEPEAK』。その開発の経緯や価格設定の意図、さらには音声コンテンツの未来について、開発者である株式会社AHS取締役会長の尾形友秀(おがた・ともひで)氏と、Dreamtonics株式会社の華侃如(フア・カンル)氏に伺った。

今回の記事を実際に『VOICEPEAK』で読み上げさせた動画

会社史上ダントツの売上を支えた音声合成技術

―― 『VOICEPEAK』が2022年3月11日に発売されてから3ヶ月ほど経ちました。周囲からの反応はいかがですか?

尾形 会社を17年やってきた中で、ダントツの売り上げです。SNSなどで話題にしてくれる人も多いですが、実際に使っていただいているユーザーさんの数も、これまでとは比べ物になりません。

ここまで売れている要因は、商用利用OKということもありますが、何よりも圧倒的なクオリティだと思います。音声のクオリティが「もう人だよね」と言えるところまで達している。これは長年研究開発に取り組んできた Dreamtonics さんの努力の賜物だと思います。

カンル 私たちは以前からAI技術を用いた歌声合成ソフトウェアを開発しています。歌声には音程やリズムが含まれるので、普通に喋る音声を作るよりも難しいんです。AHSさんには以前から弊社の『Synthesizer V』というソフトを販売いただいていましたが、新しいバージョンを出すタイミングで、尾形さんと直接お話する機会がありました。

尾形 人工知能を使った音声合成はここ2年ほどでグッと進歩していますが、その中でもDreamtonics さんの技術は段違いでした。この技術は普通の喋りにも活かせるのではないか、こういうことができるのではないかとカンルさんと話すうちに意気投合し、共同で『VOICEPEAK』の開発を始めることになりました。

カンル コロナ禍で読み上げの需要が高まることも予想していましたが、利益云々よりもAHSさんとの共同開発は楽しいだろうと思えたんです。これまでの合成音声では、最初は大丈夫だとしても、途中で違和感を感じ、聞くのが嫌になることもありました。もし人間らしく自然に聞こえる音声ができれば、いろいろなアプリケーションで使えるようになりますよね。

人間と区別がつかない!? 超自然なAI音声合成ソフト『VOICEPEAK』開発秘話_a
VOICEPEAK 商用可能 6 ナレーターセット

尾形 不自然に聞こえない、長時間聴いていても耳が疲れない音声ができたことで、色々な場所で使われるための、ひとつのハードルを越えたと思っています。

おかげさまで『VOICEPEAK』は企業の社内研修やオンライン授業、YouTube動画のナレーションなどに活用いただいています。声優さんのラジオでも取り上げていただきましたし、身近なところでは、留守電の待ち受け音声などにも使われていますね。個人商店や小さな会社では「デフォルトの音声は嫌だけど、素人のアナウンスを入れるのはちょっと……」という需要が多いんですよ。