De Uitdaging van AI-bedrijven in het Verkrijgen van Hoogwaardige Trainingsgegevens

Kunstmatige intelligentie (AI) bedrijven staan voor een aanzienlijke uitdaging bij het verkrijgen van hoogwaardige trainingsgegevens, volgens een recent rapport. Deze kwestie heeft deze bedrijven aangespoord om verschillende methoden te verkennen om de hindernis te overwinnen, zelfs als dit betekent dat ze zich begeven op duistere terreinen van het auteursrecht in AI.

Een bekend bedrijf, OpenAI, bevond zich in een nijpende situatie wat betreft trainingsgegevens en ontwikkelde zijn Whisper-audio transcriptiemodel als oplossing. Dit model transcribeerde meer dan een miljoen uur aan YouTube-video’s, die vervolgens werden gebruikt om GPT-4 te trainen, het meest geavanceerde taalmodel van OpenAI. Hoewel OpenAI de mogelijke juridische implicaties van deze aanpak erkende, geloofde het dat het onder fair use viel. Opmerkelijk is dat de president van OpenAI, Greg Brockman, persoonlijk toezicht hield op het verzamelen van de video’s die voor de training werden gebruikt.

Als reactie op deze claims verklaarde de woordvoerder van OpenAI, Lindsay Held, dat het bedrijf “unieke” datasets samenstelt voor elk van zijn modellen om hun begrip van de wereld te verbeteren. Held legde uit dat OpenAI verschillende gegevensbronnen gebruikt, waaronder openbaar beschikbare gegevens en niet-openbare partnerschappen, terwijl het ook de generatie van synthetische gegevens onderzoekt. Het bedrijf raakte in 2021 door zijn bestaande voorraden bruikbare gegevens heen en begon YouTube-video’s, podcasts en audioboeken te transcriberen, naast andere bronnen zoals computercodes van Github, databases van schaakzetten en educatieve inhoud van Quizlet.

Google, een andere grote speler op het gebied van AI, heeft ook te maken gehad met uitdagingen bij het verkrijgen van trainingsgegevens. De woordvoerder van het bedrijf, Matt Bryant, reageerde op berichten dat OpenAI YouTube-inhoud voor trainingsdoeleinden had gebruikt. Bryant benadrukte dat ongeautoriseerd scrapen of downloaden van YouTube-inhoud strikt verboden is door hun servicevoorwaarden. Google erkende dat het zijn modellen traint op geselecteerde YouTube-inhoud in overeenstemming met afspraken die zijn gemaakt met YouTube-makers. Daarnaast heeft het bedrijf wijzigingen aangebracht in zijn privacybeleid om de manieren uit te breiden waarop het consumentengegevens kan gebruiken, zoals het opnemen ervan in kantoortools zoals Google Docs.

Meta, voorheen bekend als Facebook, kwam soortgelijke obstakels tegen bij het verkrijgen van hoogwaardige trainingsgegevens. Opnames verkregen door The New York Times onthulden discussies binnen Meta’s AI-team over het ongeoorloofde gebruik van auteursrechtelijk beschermd werk. Meta onderzocht verschillende strategieën om OpenAI bij te houden, waaronder de mogelijkheid om licenties voor boeken aan te schaffen of zelfs een grote uitgeverij volledig over te nemen. Privacygerelateerde veranderingen die door Meta zijn doorgevoerd als reactie op het Cambridge Analytica-schandaal hebben ook de mogelijkheid van het bedrijf beperkt om consumentengegevens te benutten.

AI-bedrijven, waaronder Google, OpenAI en anderen, worstelen met de afnemende beschikbaarheid van trainingsgegevens voor hun modellen, die sterk afhankelijk zijn van de hoeveelheid gegevens voor verbetering. De snelle consumptie van nieuwe inhoud kan tegen 2028 de mogelijkheid om verse trainingsgegevens te verkrijgen overtreffen. Gezien deze uitdaging, mogelijke oplossingen genoemd in recente rapporten zijn onder andere modellen trainen op synthetische gegevens gegenereerd door hun eigen modellen of het toepassen van leertechnieken voor het curriculum. De effectiviteit van deze aanpakken moet echter nog worden bewezen.

Veelgestelde VragenThe source of the article is from the blog klikeri.rs

Veelgestelde Vragen
The source of the article is from the blog klikeri.rs