Den Framtid av AI-utveckling och Data Förväntningar hos Tekniksjättarna

I jakten på att utveckla avancerade artificiell intelligens (AI)-modeller har stora teknikföretag som OpenAI, Google och Meta följt okonventionella och ibland kontroversiella metoder för att skaffa enorma mängder data. När AI-teknologin fortskrider har efterfrågan på stora mängder högkvalitativ data ökat markant, vilket har drivit dessa företag att utforska nya sätt att förvärva data.

Enligt en färsk rapport använde OpenAI över en miljon timmar av YouTube-videor för att träna sin kraftfulla språkmodell, GPT-4. Istället för att direkt använda videorna, använde OpenAI ett taligenkänningverktyg kallat Whisper för att transkribera innehållet och generera ny konversationsstruktur. Även om denna metod väckte frågor om överensstämmelse med YouTubes riktlinjer, då plattformen begränsar oberoende applikationer från att använda dess videor, hittade OpenAI ett sätt att transkribera innehållet.

På liknande sätt har Google och Meta, det moderbolag som äger Facebook och Instagram, upptäckts använda kontroversiella datakällor. Rapporten antyder att Google har transkriberat YouTube-videor för AI-träning, vilket potentiellt bryter mot upphovsrättslagar, och har till och med ändrat sina användarvillkor för att få tillgång till mer användargenererat innehåll. Meta har utforskat möjligheten att förvärva Simon & Schuster för att få tillgång till en enorm boksamling och har övervägt att använda upphovsrättskyddad internetdata, trots etiska och rättsliga konsekvenser.

Data Volym och AI Prestanda

Effektiviteten hos AI-modeller, särskilt när det gäller att generera människoliknande text, bilder, ljud och videor, beror till stor del på mängden data de tränas på. Den omättliga efterfrågan på högkvalitativ data inom AI-branschen har lett till spekulationer om att teknikföretag kan komma att utnyttja tillgängliga internetdata så tidigt som år 2026. Detta understryker den avgörande roll som dataförvärv har i att driva gränserna för AI-kapaciteterna.

Företagens Svar

OpenAI har svarat på frågorna genom att ange att varje av deras AI-modeller är tränad på en unik dataset, vilket betonar behovet av att bibehålla konkurrenskraften inom forskningen. Google har å andra sidan erkänt att de tränar sina AI-modeller på vissa YouTube-innehåll, men klargjort att de gör det enligt avtal med innehållsskapare. De har vidare förtydligat att data från kontorsappar inte används utanför experimentella program. Meta betonar sitt åtagande att integrera AI i sina tjänster genom att dra nytta av miljarder offentligt delade bilder och videor.

FAQThe source of the article is from the blog karacasanime.com.ve

FAQ
The source of the article is from the blog karacasanime.com.ve