Этическая угроза: изображения детей используются неправомерно для обучения систем искусственного интеллекта

Human Rights Watch бьет тревогу из-за использования изображений детей AI без согласия

Во время потрясающего открытия Human Rights Watch (HRW) привлекает внимание к беспокоящему тренду в практиках обучения искусственного интеллекта. Их доклад сосредотачивается на личных фотографиях детей из Бразилии, собранных из интернета и использованных для разработки AI без согласия родителей.

Исследователи из HRW выразили беспокойство о потенциальном вреде детям, возникающем из-за неправомерного использования их изображений в наборах данных для обучения AI. Срочно требуется вмешательство бразильского правительства для предотвращения таких злоупотреблений и защиты прав данных несовершеннолетних.

Всё началось с изучения корпуса данных LAION-5B, огромного набора данных, используемого для обучения AI, составленного с помощью обширной автоматизированной выкачки онлайн-содержимого. В нем находились идентифицируемые фотографии бразильских детей, иногда их имена были различимы в подписях или URL-адресах изображений. Легкость доступа к фотографиям, в сочетании с дополнительными деталями, раскрывающими их реальную личность, такими как время и местоположение, составляет нарушение конфиденциальности, выделенное HRW.

Несмотря на то, что изображения происходят из блогов и фотохостингов, которые обычно препятствуют ботам для сбора данных, эти изображения удалось проникнуть в LAION-5B. Набор данных содержит фотографии, снятые десятилетия назад, вызывая серьёзные опасения с учётом эволюции законов о конфиденциальности и осознания с момента их первоначальной публикации.

Охватывая всего долю примерно из шести миллиардов изображений и подписей в LAION-5B, исследование HRW обнаружило 170 фотографий из разных уголков Бразилии. LAION, некоммерческая организация за набором данных, признала наличие частных фотографий детей и обещала удалить те, которые были идентифицированы HRW.

Страх того, что инструменты AI могут реплицировать и злоупотреблять этими изображениями, очевиден. Изменённые контексты могут привести к плагиату работ художников или генерации вредного контента, таких как deepfake изображений детей или эксплицитный контент. Ранее исследователи из Стэнфордского университета выявили такие риски внутри LAION-5B, включая возможность генерации оскорбительного контента.

Эта проблема поднимает фундаментальные вопросы о защите данных и обязанностях опекунов и владельцев контента по контролю за своим цифровым следом для обеспечения конфиденциальности.

Ключевые вопросы и ответы:

— Каковы этические последствия использования изображений детей без согласия для обучения AI? Использование изображений детей без согласия родителей вызывает целый ряд этических дилемм. Это нарушает права конфиденциальности и может подвергать детей риску кражи личности, преследования или неправильного использования в неблагоприятных контекстах, таких как deepfake, школьное запугивание или другие формы эксплуатации.

— Какие правовые структуры существуют для защиты прав на цифровые данные? Правовые структуры, такие как Общий регламент по защите данных (GDPR) в ЕС и Закон о защите онлайн-приватности для детей (COPPA) в США, существуют для защиты персональных данных и установления правил по согласию на обработку данных и конфиденциальности, особенно для несовершеннолетних.

— С какими проблемами сталкиваются организации при создании этических наборов данных для AI? Одной из основных проблем является обеспечение того, что данные, используемые для обучения AI, источаются этично и легально, с соответствующим согласием. Также необходимо фильтровать чувствительный контент и обеспечивать защиту от предвзятости в наборах данных, которая может поддерживать дискриминацию или неравенство.

Основные проблемы и споры:

— Выкачка данных: Способы выкачки данных, которые случайно собирают и используют личные изображения детей, вызывают споры, так как часто происходят без ведома или согласия субъектов данных, что приводит к нарушениям конфиденциальности.

— Курация набора данных: Ответственность исследователей AI и компаний за ответственное формирование наборов данных является критической проблемой. Идентификация и удаление чувствительного контента, особенно относящегося к несовершеннолетним, является важным, но может быть затруднительным из-за обширного объема данных.

— Юридические и юрисдикционные вопросы: Разные страны имеют различные законы, касающиеся конфиденциальности и защиты данных. Это создаёт сложный юридический ландшафт для глобального развития AI, где многонациональные наборы данных могут конфликтовать с местными законами о конфиденциальности.

Преимущества и недостатки:

— Преимущества: Обучение систем AI разнообразными наборами данных может привести к более точным и эффективным технологиям, полезным для общества. Это может привести к прогрессу в областях, таких как медицинская диагностика, образование и безопасность.

— Недостатки: Неправомерное использование личных изображений, особенно детей, может привести к правовым и этическим последствиям. Это разрушает доверие общественности к AI и провайдерам технологий и наносит вред отдельным лицам, когда их конфиденциальность нарушается.

Для получения дополнительной информации о защите прав на цифровые данные и этических практиках AI, вы можете посетить следующие организационные ссылки:

— Human Rights Watch: www.hrw.org
— LAION (Крупномасштабная открытая сеть искусственного интеллекта): www.laion.ai (Обратите внимание, что конкретная страница о этических вопросах может быть не на главном домене)

Пожалуйста, убедитесь в правильности URL-адресов перед посещением, так как структура доменов может измениться со временем.