#1
#2

生成AIは学習データを無断で使用していいのか?

ここからは、生成AIに関して巻き起こっている議論を掘り下げたいと思います。

生成AIと呼ばれているAIのほとんどは、学習のために膨大なデータを必要とします。もっとも、これは生成AIに限った話ではなく、われわれが普段何気なく使っているサービスの背後にある、生成を目的としないAIでも同じことです。これは、現在の人工知能技術の主流で生成AIの基盤技術となっている機械学習・ディープラーニングの本質的な性質が、「膨大なデータから学習することで、とてつもない性能を発揮できる」ことに起因します。

これらのAIを運用しているのは、Google、Amazon、Meta、Appleのように、インターネット上で多くのデータを収集している企業、あるいはWebのクローリングによってデータを収集しているOpenAI社や大学のような組織です。

「生成を目的にしていたかどうか」がキモとなる? 日本のAI規制が困難な現状と今後危惧される「人間の声」のディープフェイク_1
すべての画像を見る

われわれはこれらのサービスを日常的に、背後にあるAIの学習データを意識することなく利用していますが、ほとんどの場合、学習のもとになるデータは、普通にインターネットを使用している一般ユーザーが生み出した文章や画像です。つまり、これらのデータは、生み出したユーザーが著作権者として権利を持つ著作物です。

しかし、インターネット上になんらかのコンテンツを投稿したことがある人で、Googleなどからデータの使用許可の要請を受け取った人はまずいないでしょう。基本的にほとんどの場合、これらの著作物を許可なくAIの学習に使うこと自体は合法です。

これまでは、そのことで被害を受けたという意識を抱く人は少数でしたが、生成AIブームによって、このようなデータを用いた学習が注目を集め議論となっています。

文章の執筆を生業とする作家や翻訳者もそうですが、特にイラストなどの創作活動を行う業界でこのことが問題視されています。「無断学習」という言葉を用いて、生成AIの使われ方以前の問題として、生成AIの学習の是非について問う声も大きくなっています。

最も極端なものになると、「無断学習されたAIを(生成目的で)使うべきではない」とする主張も見られます。