De jacht op data: Techbedrijven steken hun nek uit om A.I. te bevorderen

In de strijd om de wereld te leiden op het gebied van kunstmatige intelligentie (A.I.) , zijn techbedrijven zoals OpenAI, Google en Meta tot het uiterste gegaan om de benodigde digitale gegevens te verkrijgen om hun technologie te verbeteren. Echter, ze nemen risico’s, negeren bedrijfsbeleid en debatteren zelfs over het overtreden van de wet om de benodigde data te verkrijgen.

OpenAI stond bijvoorbeeld voor een probleem in de aanvoer eind 2021 toen het alle betrouwbare Engelstalige tekstbronnen op internet had uitgeput om zijn A.I. systeem te trainen. Om dit te overwinnen, ontwikkelden onderzoekers van OpenAI een spraakherkenningsinstrument genaamd Whisper. Dit instrument transcribeerde audio van YouTube-video’s, waardoor er nieuwe conversatietekst ontstond die hun A.I. systeem slimmer kon maken.

Er werden bezwaren geuit binnen OpenAI over de mogelijke schending van de regels van YouTube door hun video’s te gebruiken voor een “onafhankelijke” toepassing. Desondanks transcribeerde een OpenAI-team, onder leiding van Greg Brockman, de president van OpenAI, meer dan een miljoen uur aan YouTube-video’s. De resulterende teksten werden vervolgens gebruikt om GPT-4 te trainen, een van ’s werelds krachtigste A.I.-modellen en de basis voor de nieuwste versie van de ChatGPT-chatbot.

Vergelijkbaar bij Meta (voorheen Facebook), overwogen managers, advocaten en ingenieurs om de uitgeverij Simon & Schuster over te nemen om toegang te krijgen tot uitgebreide geschreven werken. Ook besprak het bedrijf de extractie van auteursrechtelijk beschermde gegevens van verschillende internetbronnen, waarbij ze bereid waren om mogelijke rechtszaken aan te gaan in plaats van licentieovereenkomsten te onderhandelen met uitgevers en contentmakers.

De dorst naar data is cruciaal geworden in de ontwikkeling van A.I.-modellen. Voor 2020 vertrouwden modellen zoals GPT-2 op relatief kleine hoeveelheden trainingsgegevens. Echter, er vond een significante verschuiving plaats met de release van GPT-3, waar onderzoekers veel grotere datasets begonnen op te nemen om de modellen effectief te trainen.

FAQ:

V: Wat is A.I.?
A: A.I. staat voor Kunstmatige Intelligentie, wat verwijst naar de ontwikkeling van computersystemen die in staat zijn taken uit te voeren die normaal menselijke intelligentie vereisen.

V: Wat is GPT-4?
A: GPT-4 is een van de krachtigste A.I.-modellen ontwikkeld door OpenAI. Het staat voor Generative Pre-trained Transformer 4 en wordt gebruikt om mensachtige tekst te genereren op basis van de gegeven prompts.

V: Wat zijn ChatGPT en Whisper?
A: ChatGPT is een chatbot ontwikkeld door OpenAI, aangedreven door GPT-modellen. Whisper is een spraakherkenningsinstrument gemaakt door OpenAI voor het transcriberen van audio van YouTube-video’s.

Bronnen:
– The New York Times: [insert NYT domain]
– Epoch: [insert Epoch domain]

The source of the article is from the blog foodnext.nl