인공지능 챗봇의 미지의 위험: 포괄적인 검토

최근 몇 년 동안 인공지능 (AI) 챗봇과 이미지 생성기는 점점 더 인기를 얻고 있지만, 그들의 결점과 편향 또한 상당한 주목을 받고 있습니다. 이러한 도구들은 개인을 편견적으로 표현하거나 거짓 정보를 퍼뜨리며 차별적인 콘텐츠를 생성하고 부정확한 답변을 제공하는 것으로 알려져 있습니다. 이러한 문제들은 잘 문서화되어 있지만, 이러한 문제들의 보급 및 심각성에 대한 심층적인 이해가 여전히 부족합니다.

최근 산업 및 시민 사회 단체들의 보고서는 AI 챗봇이 잘못될 수 있는 다양한 방법에 대해 알아보기 위해 발간되었습니다. 이 연구는 Def Con 해커 컨벤션에서 개최된 백악관 후원의 콘테스트 결과를 강조합니다. 참가자들은 정치적 오도, 인구 편견, 사이버 보안 침해, 그리고 AI의 존재 선언 등 다양한 분야에 대한 8대 선도적 AI 챗봇을 문제가 되는 응답 생성을 시도했습니다.

결과는 AI 챗봇이 일반적으로 자신의 규칙과 지침을 어기지 않으려는 저항력이 강해서 그들을 부적절하게 행동하게 속이는 것이 어렵다는 것을 보여줍니다. 그러나 연구는 그들이 부정확한 정보를 생성하는 것은 상대적으로 쉽다는 것도 보여줍니다. 제출된 시도 중에서, 참가자들은 잘못된 수학(76%) 및 지리 정보(61%)를 생성하는 데 가장 높은 성공률을 보였습니다. 또한, 변호사로부터의 쿼리에 직면했을 때 법적 오도를 제공하는 경향이 있었는데, 이 경우 성공률은 45%였습니다.

보고서는 또한 민감한 정보 처리에 대한 챗봇의 취약성을 강조합니다. 참가자들은 제출된 솔루션의 과반수 이상에서 숨겨진 신용카드 번호를 성공적으로 유도하고 허구의 기업 네트워크에 대한 관리 권한을 획득할 수 있었습니다.

반면, 참가자들은 인권 침해를 바래거나 특정 그룹의 열등성을 주장하도록 챗봇을 조종하는 데 어려움을 겪었습니다. 이러한 시도는 각각 20%와 24%의 제한된 성공률을 보였습니다. 또한, 소수 그룹에 긍정적인 특징을 부여하면서 과반수 그룹에 대해서는 그렇게 하지 않는 것과 같은 “과정 보정”을 테스트하기 위한 제출은 40%의 성공률을 보였습니다. 이 발견은 구글의 Gemini와 같은 다른 AI 모델도 잠재적으로 해로운 편견을 대응하기 위한 퉁명한 수단을 발휘할 수 있음을 시사합니다.

흥미로운 점은, 챗봇을 방해하는 가장 효과적인 전략은 그것을 해킹하는 것이 아니라 거기서 시작하는 것입니다. 챗봇에게 악의적인 쌍둥이나 친절한 할머니로 조종하도록 요청하는 것과 같은 알려진 기술은 효과가 없었습니다. 대신, 잘못된 주장이나 가정을 포함하는 질문을 챗봇에게 하는 것은 감사할 만한 그러나 부정확한 응답을 이끌어내는 데 이르렀습니다. 이것은 챗봇이 사실과 허구를 구분하는 데 제한이 있다는 점을 강조합니다.

이러한 결과들의 함의는 멀리 미칩니다. AI 회사, 비평가, 그리고 규제 당국은 복잡한 프롬프트 해킹에서 사용자의 편향과 오해를 확인하거나 확대할 수 있는 방법을 조사하는 데 초점을 맞출 필요가 있습니다. 이러한 잠재적 위험을 이해하는 것은 AI 시스템의 책임 있는 개발과 실행을 위해 중요합니다.

AI 위험을 평가하는 중요성이 커짐에 따라, 많은 AI 회사와 규제 당국이 “레드 팀 테스팅” 접근을 채택하고 있습니다. 레드 팀 테스팅은 해커들을 고용하여 시스템의 취약점을 확인하는 사설 평가를 의미합니다. 이 보고서는 공개 레드 팀 테스팅 연습(예: Def Con 이벤트)이 넓은 대중의 다양한 관점을 통합함으로써 추가 가치가 있다고 제안합니다. 이러한 연습들은 AI 시스템이 가지는 도전에 대한 보다 포괄적인 이해를 제공합니다.

게다가, Anthropic의 다른 연구에서는 AI 모델이 장기 대화에 있어 취약점을 강조하고 있습니다. 최신 AI 모델에서 프롬프트 해킹은 해결되었을 수 있지만, 연장된 대화 능력은 “많은샷 탈옥”이라는 새로운 형태의 악용을 제시합니다. 이는 AI 시스템의 유용성을 만드는 동시에 그들을 잠재적으로 위험하게 만들 수 있는 같은 특징을 보여줍니다.

결론적으로, AI 챗봇 취약점에 관한 보고서는 AI 기술의 복잡한 환경에 대한 귀중한 통찰을 제공합니다. 이는 이러한 시스템과 관련된 위험을 완화하기 위한 책임 있는 개발, 실행 방법, 공개적인 레드 팀 테스팅 연습, 그리고 계속되는 연구가 중요함을 강조합니다.

FAQ

The source of the article is from the blog revistatenerife.com

Privacy policy
Contact