深層学習における問題点と可能性

最近の研究によれば、深層学習におけるAIチャットボットや画像生成技術は、ますます人気を博していますが、その一方で、深刻な課題や偏見も浮き彫りになっています。これらのツールは個人をステレオタイプ化し、誤った情報を拡散し、差別的なコンテンツを生成し、不正確な回答を提供することが知られています。これらの問題は十分に文書化されていますが、その普及度と深刻さについては、依然として包括的な理解が不足しています。

産業界および市民社会団体による最近の報告書では、AIチャットボットがどのように問題を引き起こす可能性があるかについての光を当てた。この報告書は、ディフコンハッカーコンベンションで行われたホワイトハウス支援のコンテストの結果を示しています。参加者は、政治的な誤情報、人口統計の偏り、サイバーセキュリティの侵害、AIの自我主張などの領域をカバーし、8つの主要なAIチャットボットを問題のある回答を生成するように操作しようとしました。

調査結果によると、AIチャットボットは一般的に、自らのルールやガイドラインに違反することには抵抗する傾向があり、不適切な振る舞いに誘導することが難しいとされています。ただし、得られる情報を不正確にすることは比較的容易であることも示されています。提出された試みの中で、数学の誤り(76%)や地理情報の誤情報(61%)を生成することに最も高い成功率が見られました。さらに、弁護士からのクエリに対応する際、法的な誤情報を提供する傾向があり、成功率は45%でした。

報告書はまた、AIチャットボットが機密情報を取り扱う際の脆弱性を強調しています。参加者は、隠されたクレジットカード番号の入手や架空の企業ネットワークへの管理権限の取得など、提出された解決策の半分以上で成功を収めることができました。

一方で、参加者はチャットボットに人権侵害を正当化させたり、特定のグループの劣性を主張させたりしようとする際に課題に直面しました。これらの試みはそれぞれ20%と24%という限られた成功率を示しました。また、多数派グループに対して肯定的な特性を与えつつ、少数派グループにはそうしないように拒否するなど、チャットボットの「過剰修正」をテストする目的の提出物は、40%の成功率を達成しました。この結果から、Googleのジェミニなどの他のAIモデルも、潜在的に有害なステレオタイプと戦うために鈍い修正を行う可能性があることが示唆されています。

興味深いことに、チャットボットを狂わせる最も効果的な戦略は、そのハッキングによるものではなく、誤った前提から始めることです。チャットボットに悪の双子や親切な祖母としてロールプレイするよう求めるなどの既知の技術は効果がなかったことが明らかになりました。代わりに、チャットボットに誤った主張や仮定を含む質問をすることで、信憑性のあるが間違った回答を導き出しました。これは、チャットボットが事実とフィクションを区別する能力に限界があることを強調しています。

これらの調査結果の影響は広範囲にわたります。AI企業、批評家、規制機関は、複雑なプロンプトハックから、チャットボットがユーザーの偏見や誤解を確認または増幅する方法を調査することに焦点を移すことを呼びかけています。これらの潜在的な危険を理解することは、AIシステムの責任ある開発と運用のために重要です。

AIリスクの評価の重要性が増す中、多くのAI企業や規制機関は「レッドチーミング」アプローチを採用しています。レッドチーミングとは、ハッカーを雇い、システムのリリース前に脆弱性を特定するための私的な評価を行うことを意味します。報告書は、ディフコンのような公開のレッドチーミングの練習が、幅広い一般の意見を取り入れることで追加の価値を持つと提案しています。これらの練習は、AIシステムが直面する課題についてより包括的な理解を提供します。

さらに、アントロピックによる別の調査は、AIモデルが長時間の会話に耐える際の脆弱性に焦点を当てています。最新のAIモデルにおいてプロンプトのハッキングが取り組まれているかもしれませんが、長時間の会話の可能性は、「多数のショットのジェイルブレイキング」と呼ばれる新しい形態の悪用をもたらす可能性があります。これは、AIシステムを有用にする同じ特性が、それらを潜在的に危険なものにすることも示しています。

まとめると、AIチャットボットの脆弱性に関する報告書は、AIテクノロジーの複雑な風景に貴重な洞察を提供しています。これらのシステムに関連するリスクに対処する上で、責任ある開発と運用プラクティス、公開のレッドチーミング練習、および継続的な研究が重要であることを強調しています。

よくある質問

The source of the article is from the blog macholevante.com

Privacy policy
Contact