人工智能(AI)聊天機器人作為溝通和內容生成工具越來越受歡迎。然而,這些聊天機器人並非完美無缺,已知它們存在偏見和缺陷,可能導致問題。它們被觀察到對個人進行刻板印象,散佈虛假信息,甚至生成具有攻擊性的內容。為了了解這些問題的程度,一份最新報告深入探討了AI聊天機器人出錯的各種方式,提供了有價值的對其限制和風險的見解。
該報告聚焦於一項名為“生成紅隊挑戰賽”(Generative Red Team Challenge)的比賽的結果,該比賽在Def Con黑客大會上舉行。該比賽的目的是通過鼓勵黑客和普通大眾激發這些聊天機器人生成問題回應,來測試八個領先的AI聊天機器人的漏洞。測試的類別包括政治虛假信息、人口統計偏見、安全漏洞以及AI自覺性主張。
比賽的一項重要發現是,要操縱AI聊天機器人違反其自身的規則或準則是具有挑戰性的。但相對容易讓它們生成不準確的信息。參賽者在數千份提交的作品中,成功使聊天機器人生成錯誤的數學資訊(76%)和地理信息錯誤(61%)的成功率很高。令人驚訝的是,即便在法律領域,聊天機器人也傾向於提供誤導性信息,成功率為45%。
報告還揭示,AI聊天機器人難以保護敏感信息。在模擬中,參賽者試圖提取隱藏的信用卡號碼或獲得對網絡的管理員訪問權限時,超過一半的解決方案成功。然而,參賽者在企圖讓聊天機器人原諒人權侵犯或斷言某些群體的劣勢時遇到更大的困難。
有趣的是,讓聊天機器人產生錯誤信息的最有效方法不是通過傳統的駭客技術,而是通過建立在虛假前提之上。聊天機器人常常難以區分事實和虛構,樂意接受虛假宣稱並在此基礎上製造進一步的不確定性。這強調了在解決AI系統潛在危害時,應該更加關注用戶偏見和誤解的意外擴大。
報告還強調了對進行紅隊演練以評估與AI系統相關風險的日益增加的興趣。紅隊演練涉及聘請外部專家在釋出系統之前測試其漏洞。雖然在網絡安全領域私人紅隊測試很常見,但Def Con活動展示了讓更廣泛的公眾參與發現漏洞和捕捉不同觀點價值的重要性。
隨著AI公司和監管機構日益意識到紅隊演練的重要性,關鍵是要涉及更廣泛的利益相關者,以確保對AI系統風險的全面評估。透明度和公眾參與有助於更全面地理解潛在影響並指導健全的AI治理框架的發展。
**常見問題(FAQ)**
1. 什麼是AI聊天機器人?
AI聊天機器人是設計來模擬人類對話並通過文本或聽覺方式與用戶互動的計算機程序。
2. AI聊天機器人有哪些限制?
AI聊天機器人可能存在缺陷和偏見,導致不準確的信息、刻板印象的加劇和生成攻擊性內容。
3. AI聊天機器人出錯的原因是什麼?
AI聊天機器人可能生成不準確的信息、放大用戶偏見、未能保護敏感數據,並且存在易受利用的漏洞。
4. 什麼是紅隊演練?
紅隊演練是一種在釋出系統之前聘請外部專家測試系統漏洞的做法,旨在發現潛在風險並增強安全措施。
資料來源:
– 華盛頓郵報
– Def Con
– Humane Intelligence
– Google
– Cohere… Read the rest