Новые методы тренировки ИИ-моделей: свежий взгляд

Искусственные интеллектуальные (ИИ) модели получили значительное развитие в последние годы, но одной из проблем обучения этих моделей было использование материалов, охраняемых авторским правом. Однако теперь возникают альтернативные методы, позволяющие обучать ИИ-модели без нарушения интеллектуальных прав.

Группа исследователей, поддерживаемая правительством Франции, внесла значительный вклад в эту сферу, выпустив набор данных для обучения ИИ, состоящий целиком из текстов из общественного достояния. Этот набор данных предоставляет доказательства того, что большие языковые модели могут быть обучены без необходимости использования материалов, защищенных авторским правом. Это открытие открывает новые возможности для обучения ИИ-моделей, обеспечивая соблюдение авторских прав.

Кроме того, некоммерческая организация Fairly Trained добилась значительного прорыва, успешно сертифицировав свою первую большую языковую модель под названием KL3M. Разработанная 273 Ventures, стартапом-консультантом в сфере юридических технологий из Чикаго, KL3M была обучена с использованием кураторского набора данных, состоящего из юридических, финансовых и регуляторных документов. Соблюдая авторские права и используя собственный набор данных, 273 Ventures продемонстрировала, что возможно создавать большие языковые модели без проблем с авторскими правами.

Джиллиан Боммарито, сооснователь 273 Ventures, указывает на тревожные заботы своих клиентов в юридической индустрии как мотивацию за решением обучать KL3M с использованием собственного набора данных. Клиенты хотели уверенности в том, что их ИИ-модель не основана на защищенных авторским правом или «загрязненных» данных. Боммарито подчеркивает, что размер модели не обязательно должен быть чрезмерно большим, и подчеркивает важность высококачественных данных для достижения лучшей производительности и специализации.

Хотя наборы данных, подобные KL3M, в настоящее время могут быть меньше по объему по сравнению с теми, что собраны отраслевыми гигантами, такими как OpenAI, есть надежда на будущее. Исследователи недавно выпустили Common Corpus, который является, как они утверждают, самым большим доступным набором данных для ИИ-моделей, состоящим исключительно из контента из общественного достояния. Этот набор данных, размещенный на платформе с открытым исходным кодом Hugging Face, содержит тексты из цифровых версий газет из общественного доступа, дигитализированные институтами, такими как Библиотека Конгресса США и Национальная библиотека Франции. Common Corpus обеспечивает исследователей и стартапы проверенным набором данных для обучения, свободным от проблем с авторскими правами.

Хотя наборы данных, составленные из контента из общественного доступа, имеют ограничения, например, могут содержать устаревшую информацию, они представляют собой ценный ресурс для обучения больших языковых моделей. Проекты, подобные Common Corpus и KL3M, демонстрируют растущий скептицизм в сообществе ИИ по отношению к аргументу о беспрепятственном сборе данных. Фактически, недавно Fairly Trained сертифицировала первую компанию для предоставления голосовых моделей ИИ, что показывает, что в индустрии намечается тенденция к получению соответствующих лицензий и уважению интеллектуальных прав.

**Часто задаваемые вопросы (FAQ)**

1. **Что такое Fairly Trained?**
Fairly Trained — некоммерческая организация, предлагающая сертификацию компаниям, которые могут доказать, что обучили свои ИИ-модели на данных, которые они либо владеют, либо получили лицензии на использование, либо эти данные находятся в общественном достоянии. Цель Fairly Trained — поощрять честные и этические практики в разработке ИИ.

2. **В чем отличие KL3M от других больших языковых моделей?**
KL3M уникален тем, что обучен с использованием кураторского набора данных юридических, финансовых и регуляторных документов, которые соответствуют авторскому праву. В отличие от других моделей, KL3M избегает проблем с нарушением авторских прав и предоставляет авторитетные и надежные результаты, что делает его идеальным для клиентов в юридической сфере.

3. **Что такое набор данных Common Corpus?**
Common Corpus — это набор данных ИИ, построенный на контенте из общественного доступа, таком как цифровые версии газет из институтов, таких как Библиотека Конгресса США и Национальная библиотека Франции. Он стремится предоставить исследователям и стартапам проверенный набор данных для обучения, свободный от проблем с авторскими правами, хотя он может не содержать самую актуальную информацию.

4. **Почему возрастает тенденция к лицензированию в области ИИ?**
По мере того, как технологии ИИ развиваются и становятся более продвинутыми, возрастает осознание необходимости уважения интеллектуальных прав. Многие организации, включая Authors Guild и SAG-AFTRA, поддерживают миссию Fairly Trained по поощрению справедливых практик лицензирования в области развития ИИ.

The source of the article is from the blog elblog.pl