#1
#2

日本語というマイナー言語ゆえの不利さ

生成AIの開発で日本企業が後れを取っている理由の一つとして、自然言語を処理する大規模言語モデルの開発は、英語圏のほうが有利だということがあるでしょう。

AIに自然言語を学習させるためのテキストデータは、日本語よりも、英語のほうが圧倒的に多くあります。

今さら言うまでもなく、英語は世界中で使われているグローバルな言語だからです。そのため、生成AIの自然言語処理は、英語での開発優先度が上がり、精度も最も高くなりやすいのです。

ChatGPTも、日本語にも対応していますが、英語で質問したほうが、より精度の高い回答をします。GPT‒3・5からGPT‒4へのアップデートによって日本語での精度も向上したのは喜ばしいことですが、それでも英語と比べると劣ります。

ほぼ日本という島国でしか使われていない日本語は、世界的に見ればマイナー言語です。その日本語を、わざわざ生成AIに学習させる優先順位は、海外の企業ならなおさら相対的に低くならざるを得ません。

市場規模を比較しても、何か特別な事業であったり狙いがあったりしなければ、生成AIの開発で鎬を削っている最先端企業があえて日本語への対応を優先させることはありません。

日本語AI生成に明るい未来はあるのか…ひらがな、カタカナ、漢字が入り混じる「言語構造の不利さ」が圧倒的な壁に_1
すべての画像を見る

ひらがな、カタカナ、漢字が入り混じる…日本語構造の不利な面

日本語の構造にも不利な面があります。ひらがな、カタカナ、漢字が入り混じる上に、主語が省略されやすいなどといった日本語の特徴は、シンプルな構造の英語と比べると扱いにくいのです。

それぞれに固有の言語を持つ他国についても同じことが言えるかもしれませんが、少なくとも日本語ゆえの不利さがあることは頭に入れておいたほうがいいでしょう。

それでも、今、トレンドの波に食らい付いていかなければ、日本企業の比較優位性は、低いところから、さらに低くなってしまいます。

そのことを理解している先進企業は動き始めています。

2023年5月、メルカリがグループ内横断の生成AI・大規模言語モデル専門チームを新たに設置しました。同社の研究組織がこれまで培ってきたAI技術の知見を活かしつつ、生成AIと大規模言語モデルの既存プロダクトへの実装による生産性向上や課題解決を目指すと宣言しています。