新しい可能性を切り拓くAIトレーニング: 著作権侵害なし

人工知能(AI)モデルのトレーニングには、長らく著作権の保護対象物が使用されてきましたが、最近の動向からは、知的財産権を侵害せずにこれらのモデルをトレーニングする新たな方法が存在することが示唆されています。フランス政府の支援を受ける一組の研究者たちが、公共ドメインのテキストから成る、画期的なAIトレーニングデータセットをリリースしました。この画期的なデータセットは、大規模言語モデルが著作権の保護対象物を許可なしで使用する必要なくトレーニングできることを示しています。

非営利団体Fairly Trainedも、初の大規模言語モデル「KL3M」を認定したことを発表しました。このモデルは、シカゴ拠点の法律テックコンサルティングスタートアップ、273 Venturesが開発し、法的、財務、規制文書からなる慎重に選定されたトレーニングデータセットを使用しています。著作権法に準拠し、独自のデータセットを使用することで、273 Venturesは、著作権侵害の問題を回避しつつ大規模言語モデルを構築できることを実証しました。

273 Venturesの共同創設者であるジリアン・ボンマリートは、法律業界のリスクを避ける傾向のあるクライアントの要望がKL3Mを独自のデータセットを使用してトレーニングする決定を支えたと述べています。クライアントはデータの出典に関する懸念を抱き、AIモデルが汚染された著作権のあるデータに基づいていないことを確認したかったのです。慎重に選定されたデータセットを使用することで、ボンマリートはモデルのサイズは圧倒的に大きくなる必要はなく、高品質のデータが優れたパフォーマンスと特化性につながると強調しています。

現在は、OpenAIなどの業界巨人によって編纂されたデータセットと比較してKL3Mのようなデータセットは限られていますが、将来に期待が持てます。最近、研究者たちが、公共ドメインのコンテンツだけから構成されると主張する最大のAIデータセットである「Common Corpus」をリリースしました。このデータセットは、米国議会図書館やフランス国立図書館などの機関によってデジタル化された新聞からテキストを収録し、オープンソースAIプラットフォームのHugging Faceに掲載されています。Common Corpusは、著作権の懸念を排除した洗練されたトレーニングセットを研究者やスタートアップに提供することを目指しています。

公共ドメインのコンテンツから構成されたデータセットには、情報が古くなる可能性などの制限がありますが、大規模言語モデルのトレーニングにおいて非常に貴重なリソースを提供しています。Common CorpusやKL3Mなどのプロジェクトは、AIコミュニティにおいて無許可データスクレイピングの議論へのますます高まる懐疑心を示しています。実際に、Fairly Trainedは最近初めてAI音声モデルを提供する企業を認定し、適切なライセンス取得と知的財産権の尊重に向けた業界における成長トレンドが見られます。

よくある質問(FAQ)

The source of the article is from the blog yanoticias.es

Privacy policy
Contact