Den digitala transformeringen: Nyckeln till framtidens AI

I en värld präglad av den digitala revolutionen och artificiell intelligens (AI) står teknikföretagen inför en avgörande utmaning: behovet av enorma mängder data för att träna sina AI-modeller. Företag som OpenAI, Google och Meta har vidtagit tveksamma åtgärder för att möta denna efterfrågan, vilket ibland innebär att de avviker från företagens policyer och till och med bryter mot lagliga gränser.

I slutet av 2021 stod OpenAI inför en utmaning när de behövde mer data för att träna sitt senaste AI-system. Efter att ha utnyttjat de respekterade engelskspråkiga textkällorna på internet tog de till en alternativ metod. OpenAI-forskare utvecklade Whisper, ett taligenkänning verktyg som transkriberade ljud från YouTube-videor. Den resulterande konversationstexten matades sedan in i deras kraftfulla AI-modell, GPT-4, för att förbättra dess förmågor.

Användningen av YouTube-videor för texttranskription väckte oro för potentiella regelbrott på YouTube. Trots detta fortsatte OpenAI och transkriberade över 1 miljon timmar av videor, och använde texterna för att förbättra sitt AI-system. Greg Brockman, OpenAI:s president, deltog personligen i insamlingen av dessa videor.

På liknande sätt utforskade Meta, moderbolaget för Facebook och Instagram, olika metoder för att skaffa den nödvändiga datan. Interna möten avslöjade diskussioner om att köpa upp Simon & Schuster, ett förlag, för att få åtkomst till längre verk. De övervägde också att samla in upphovsrättsskyddad data från hela internet, även om det skulle innebära rättsliga konsekvenser. Att förhandla om licenser med förläggare och innehållsskapare sågs som tidskrävande och opraktiskt.

Google, en annan stor aktör inom AI-fältet, använde sig av att transkribera YouTube-videor för att samla in data, vilket potentiellt inkräktade på upphovsrätten för videoförfattarna. Företaget utökade även sina användarvillkor för att få åtkomst till publika Google Docs, restaurangrecensioner på Google Maps och annat material online för att använda det i sina AI-produkter.

Dessa teknikföretags handlingar belyser den växande beroendet på online-information för att driva framsteg inom AI. Texter, bilder, ljud och videor skapade av människor har blivit ovärderliga resurser för att träna AI-system. När AI-modeller blir allt kraftfullare, ökar mängden data de kräver.

Teknikföretagen står inför en påtaglig utmaning när det gäller att få tillgång till högkvalitativa data. Medan internet en gång var en outtömlig informationskälla, kräver framsteg inom AI en mer mångfacetterad och omfattande datalagring. Regler som integritetslagar hindrar dock företag som Google och Meta från att använda användargenererat innehåll för AI-ändamål.

Experter förutspår att teknikjättarna kan använda upp den tillgängliga högkvalitativa datan på internet redan år 2026. Följaktligen utforskar företag alternativa metoder för att samla in data, inklusive att skapa syntetisk information. Det innebär att AI-modeller genererar text, bilder och kod för att lära sig av sitt eget resultat.

OpenAI, Google och Meta har bemött bekymren kring datainsamling och lyfter fram sina ansträngningar att kurera och integrera data i sina AI-modeller. OpenAI hävdar att varje AI-modell har en unik datamängd, som är utvald för att förbättra deras förståelse av världen. Google medger att de använder YouTube-innehåll, men strikt enligt överenskommelser med skapare, medan Meta betonar sin omfattande samling av offentligt delade bilder och videor från Instagram och Facebook.

Den ökande användningen av kreativa verk av AI-företag har lett till rättsliga tvister om upphovsrätt och licensiering. Talrika handelsgrupper, författare och företag har lämnat in synpunkter till upphovsrättskontoret angående användningen av deras verk av AI-modeller. Upphovsrättskontoret förbereder nu riktlinjer om hur upphovsrättslagen ska tillämpas i AI-eran.

Den digitala dilemmat kring data är en komplex fråga som kräver en balans mellan innovation och respekt för skaparnas rättigheter. I takt med att teknikföretagen strävar efter att utveckla avancerade AI-system kommer jakten på data att fortsätta att utvecklas, vilket leder till fortsatta diskussioner om etiska och rättsliga gränser.

Vanliga frågor

1. Hur samlar teknikföretagen in data för sina AI-modeller?
Teknikföretag som OpenAI, Google och Meta använder olika metoder för att samla in data för sina AI-modeller. Dessa metoder inkluderar att transkribera ljud från YouTube-videor, få åtkomst till publikt tillgängligt online-material och skapa sina egna datamängder.

2. Vad är syntetisk information och hur används den?
Syntetisk information avser data som genereras av AI-modeller själva, inklusive text, bilder och kod. Teknikföretag utforskar användningen av syntetisk information när tillgången till organisk data är begränsad.

3. Vilka utmaningar möter teknikföretag när de samlar in data för sina AI-modeller?
Teknikföretag står inför utmaningar som integritetslagar, företagspolicyer och potentiella upphovsrättsintrång när de samlar in data för sina AI-modeller. Dessa utmaningar kräver innovativa metoder för att överbrygga datagränserna.

4. Hur påverkar användningen av kreativa verk av AI-modeller skapare och upphovsrättsinnehavare?
Användningen av kreativa verk av AI-modeller har väckt oro bland skapare och upphovsrättsinnehavare, vilket lett till rättsliga tvister och diskussioner om upphovsrättslagen. Den pågående debatten kretsar kring rättvis användning, omvandling av verk och behovet av att skydda immateriella rättigheter.

The source of the article is from the blog kunsthuisoaleer.nl