Исследование показывает неэффективность AI-фильтров изображений в предотвращении deepfakes

Оценка, проведенная Центром по борьбе с цифровой ненавистью в Вашингтоне, показала значительное расхождение в способностях программ искусственного интеллекта блокировать создание фейковых изображений. В ходе исследования, проведенного 5 июня, было обнаружено, что программы Midjourney и ChatGPT, использующие текстовые подсказки для генерации изображений, значительно различаются в своей успешности фильтрации.

Согласно докладу, меры предосторожности Midjourney не смогли остановить 40% попыток генерации поддельных изображений, в то время как ChatGPT испытал всего 3% неудач. Различие стало еще более очевидным в тестах с изображениями президента Джо Байдена и бывшего президента Дональда Трампа.

В ходе этих тестов, Midjourney не смог успешно справиться в половине случаев, создавая множество обманчивых изображений, включая такие, где президент Байден, казалось бы, находится под стражей. Для создания поддельного изображения президента Байдена использовалась простая описательная подсказка без упоминания его по имени.

В марте сообщалось о том, что Midjourney блокировал подсказки, касающиеся как Байдена, так и Трампа, чтобы предотвратить создание фейковых изображений. Тем не менее, Центр по борьбе с цифровой ненавистью выявил, что пользователи могли легко обойти эту политику. В некоторых случаях добавление одинарного обратного слэша к ранее заблокированной подсказке позволяло создавать подделанные фотографии.

Ключевые вопросы и ответы:

— Что такое дипфейки и почему они представляют риск? Дипфейки — это синтетические медиа, в которых человек на существующем изображении или видео заменяется на подобие кого-то еще, часто с помощью искусственного интеллекта. Они представляют риск, потому что их можно использовать для создания убедительных фейковых новостей, манипуляции общественным мнением и нарушения политических процессов путем распространения дезинформации.

— Насколько эффективны фильтры изображений на основе ИИ в обнаружении и предотвращении дипфейков? Эффективность варьируется. Как указывает исследование, различные программы ИИ, такие как Midjourney и ChatGPT, проявляют различную степень успешности, при этом некоторые значительно терпят неудачу в блокировании создания фейковых изображений.

— Почему может быть расхождение в эффективности фильтров ИИ? Это может быть вызвано различиями в алгоритмах, используемых обучающих данных, программировании допустимых параметров контента или тем, как ИИ интерпретирует запросы пользователя и пытается обойти ограничения.

Основные проблемы и контроверзии:

— Технологическая гонка вооружений: Существует постоянное противостояние необходимости следить за развивающейся сложностью технологии дипфейков. По мере усовершенствования ИИ усовершенствуются и методы создания и обнаружения дипфейков.

— Этические аспекты: Использование ИИ в создании или фильтрации дипфейков вызывает этические дискуссии о цензуре, конфиденциальности и манипулировании медийным контентом.

— Политика и регулирование: Установление международных рамок управления производством и распространением синтетических медиа является сложным и еще не вполне реализованным процессом.

Преимущества и недостатки:

— Преимущества: Фильтры изображений на основе ИИ могут потенциально предотвращать широкое распространение дипфейков, что помогает защитить людей от клеветы и общество от дезинформации.

— Недостатки: Алгоритмы ИИ могут не быть непроницаемыми и их можно обойти относительно простыми трюками. Кроме того, чрезмерное фильтрование может подавить законное творчество и свободу выражения.

Для дальнейшего изучения темы дипфейков и контента, созданного с помощью ИИ, вы можете посетить официальный веб-сайт Центра по борьбе с цифровой ненавистью (CCDH) и основные сайты платформ генерации изображений на базе ИИ, таких как Midjourney и платформы ИИ, такие как OpenAI, создатели ChatGPT.

Помните, всегда проверяйте, что URL-адреса действительны и безопасны, прежде чем посещать.

The source of the article is from the blog guambia.com.uy