Възможният липса на текстови данни за развитието на изкуствен интелект

Системите за изкуствен интелект може скоро да се изправят пред съществено предизвикателство поради потенциалното изчерпване на човешки генерирани текстови данни, които са от съществено значение за направата им по-умни. Групата за изследвания Epoch AI съобщи, че в рамките на периода между 2026 и 2032 година кладенците с публично достъпни данни за обучение на езикови модели на изкуствен интелект може да се изтощят.

Авторът на изследванието, Тамай Бесироглу, предложи, че без постоянно снабдяване с автентично човешки писано съдържание, поддържането на настоящото темпо на развитие на изкуствения интелект може да бъде проблематично. В краткосрочен план технологични компании като OpenAI, разработчиците на ChatGPT, и Google, конкурират се за снабдяване и понякога плащат за качествени данни, включително подписване на споразумения за достъп до текстовото съдържание от платформи като Reddit и различни новинарски агенции.

Гледайки към бъдещето, текущите източници на нови блог постове, новини и коментари в социалните мрежи може би няма да бъдат достатъчни за поддържането на траекторията на развитие на изкуствения интелект. Тази липса може да накара компаниите да обмислят да се възползват от лични и чувствителни данни, например лични електронни писма или текстови съобщения, или да се доверят на по-малко надеждни синтетични данни, генерирани от чатботове. Бесироглу подчертава, че в този аспект има „сериозна бутилка“.

Това рецензирано от колеги изследване е планирано да бъде представено на международната конференция по машинно обучение във Виена това лято. Проектът Epoch е инициатива на неправителствената организация със седалище в Сан Франциско, „Rethink Priorities“.

Бесироглу също спомена разбирането сред изследователите на изкуствения интелект, че големи прогреси в производителността на системите за изкуствен интелект могат да бъдат постигнати като се разширява изчислителната мощ и се използват големи количества интернет данни. Според изследването от Epoch, данните въведени в езиковите модели на изкуствения интелект увеличават приблизително с 2.5 пъти годишно, докато изчислителната способност расте с около 4 пъти годишно.

Николас Паперно, асистент професор по компютърно инженерство в Университета на Торонто и изследовател в неправителствен институт за изследвания по изкуствен интелект, който не е участвал в изследването на Epoch, спомена важността от познаването, че изграждането на все по-големи модели не е необходимост. Той предложи, че специализираните модели за конкретни задачи могат да доведат до по-добри системи за изкуствен интелект. Въпреки това, Паперно изрази безпокойства по повод обучението на генеративни системи за изкуствен интелект с изходи, генерирани от самия изкуствен интелект, като посочи, че това може да доведе до намаляване на производителността, подобно на деградацията на информацията при непрекъснато копиране на документ.

Основни Въпроси и Отговори:

1. Защо има потенциално липса на текстови данни за развитие на изкуствения интелект?
Може да липсва поради края на човешки генерирани текстове, които са публично достъпни и етично приложими за обучението на системи за изкуствен интелект. Тъй като тези системи почиват тежко на големи обеми данни, увеличаващото се търсене може да надмине производството на ново човешко генерирано съдържание.

2. Какво правят компании като OpenAI и Google, за да се справят с тази потенциална липса?
Компаниите се опитват да си осигурят качествени данни чрез партньорства и споразумения с платформи, които разполагат с големи текстови набори от данни, като Reddit и различни новинарски агенции, за да гарантират стабилен приток на данни за обучение на техните системи за изкуствен интелект.

3. Какви са възможните алтернативи на човешки генерирани текстове за обучение на изкуствения интелект?
Ако човешките генерирани текстове станат рядкост, компаниите може да се обърнат към лични и чувствителни данни, което поддига етични въпроси, или да се доверят на синтетични данни, произведени от изкуствен интелект, макар този подход да доведе до намаляване на производителността на изкуствения интелект.

Предизвикателства, Контроверзии и Предимства/Недостатъци:

Основното предизвикателство е как да се осигури качеството и разнообразието на данните, нужни за непрекъснато подобрение на моделите на изкуствен интелект, без нарушаване на личните данни или етичните стандарти. Голяма контроверзия включва въпросите за поверителността и съгласието на потребителите, ако личните текстови данни се експлоатират.

Предимства:
– Непрекъснатото развитие на изкуствения интелект може да доведе до по-добри AI-помощни решения в различни отрасли.
– Специализираните модели за конкретни области или задачи могат да подобрят ефективността и производителността.

Недостатъци:
– Липсата на качествени данни може да доведе до неадекватни модели или изкривяване поради намаляващата разнообразност на наборите данни.
– Производителността на изкуствения интелект може да се влоши с времето, ако той се базира на синтетични или по-ниско качество данни.

Свързани Допълнителни Факти:
– Регулациите относно защитата на данните, както GDPR в Европа, могат да окажат влияние върху наличността на текстови данни за обучение на изкуствения интелект, изисквайки внимателно обмисляне за осигуряване на съответствие.
– Продължаващи изследвания в техниките за неразгледано и саморегулирано обучение може частично да смекчи необходимостта от големи количества маркирани текстови данни.
– Има продължаващи изследвания по малкообемно обучение, при което изкуственият интелект може да учи от много по-малки данни, което потенциално може да намали нуждата от големи корпуси текст.

Свързани авторитетни връзки по темите са:
– Google AI
– OpenAI
– Rethink Priorities

Предимствата и недостатъците на тази ситуация трябва да бъдат балансирани внимателно, със специално внимание към въпросите за поверителност, законови и етични аспекти, тъй като спешката за събиране на данни може да носи значителни разходи. Изследователите и разработчиците трябва също да се фокусират върху създаването на по-ефективни модели, които могат да се представят добре с по-малко данни или да използват синтез на данните по отговорен начин.