Die Jagd nach Daten: Technologieunternehmen drängen an die Grenzen, um KI voranzutreiben

Im Wettlauf um die Führung in der künstlichen Intelligenz (KI) gehen Technologieunternehmen wie OpenAI, Google und Meta große Wege, um die notwendigen digitalen Daten zu bekommen, um ihre Technologie voranzutreiben. Allerdings schneiden sie Ecken, ignorieren Unternehmensrichtlinien und debattieren sogar darüber, das Gesetz zu beugen, um die benötigten Daten zu erhalten.

OpenAI stand beispielsweise Ende 2021 vor einem Versorgungsproblem, als alle seriösen englischsprachigen Textquellen im Internet zur Schulung seines KI-Systems erschöpft waren. Um dieses Problem zu lösen, entwickelten OpenAI-Forscher ein Spracherkennungstool namens Whisper. Dieses Tool transkribierte Audio aus YouTube-Videos und lieferte neuen Konversationstext, der ihr KI-System intelligenter machen könnte.

Es wurden Bedenken innerhalb von OpenAI hinsichtlich einer möglichen Verletzung der Regeln von YouTube durch die Nutzung ihrer Videos für eine „unabhängige“ Anwendung geäußert. Dennoch transkribierte ein OpenAI-Team, darunter Greg Brockman, der Präsident von OpenAI, über eine Million Stunden YouTube-Videos. Die resultierenden Texte wurden dann verwendet, um GPT-4 zu schulen, eines der leistungsstärksten KI-Modelle der Welt und die Grundlage für die neueste Version des ChatGPT-Chatbots.

Ähnlich wie bei Meta (ehemals Facebook) erwogen Manager, Anwälte und Ingenieure den Kauf des Verlagshauses Simon & Schuster, um Zugang zu umfangreichen literarischen Werken zu erhalten. Das Unternehmen diskutierte auch die Extraktion von urheberrechtlich geschützten Daten aus verschiedenen Internetquellen und war bereit, mögliche Klagen zu riskieren, anstatt Lizenzen mit Verlagen und Inhaltserstellern zu verhandeln.

Der Durst nach Daten ist entscheidend für die Entwicklung von KI-Modellen geworden. Vor 2020 stützten sich Modelle wie GPT-2 auf relativ kleine Mengen an Trainingsdaten. Mit der Veröffentlichung von GPT-3 erfolgte jedoch ein bedeutender Wandel, bei dem Forscher begannen, wesentlich größere Datensätze in die Schulung der Modelle einzubeziehen.

FAQ:

Q: Was ist KI?

A: KI steht für Künstliche Intelligenz und bezieht sich auf die Entwicklung von Computersystemen, die in der Lage sind, Aufgaben auszuführen, die normalerweise menschliche Intelligenz erfordern.

Q: Was ist GPT-4?

A: GPT-4 ist eines der leistungsstärksten KI-Modelle, das von OpenAI entwickelt wurde. Es steht für Generative Pre-trained Transformer 4 und wird verwendet, um menschenähnlichen Text anhand gegebener Hinweise zu generieren.

Q: Was sind ChatGPT und Whisper?

A: ChatGPT ist ein von OpenAI entwickelter Chatbot, der von GPT-Modellen betrieben wird. Whisper ist ein von OpenAI entwickeltes Spracherkennungstool, das dazu dient, Audio aus YouTube-Videos zu transkribieren.

Quellen:

In dem Wettlauf, die Welt in künstlicher Intelligenz anzuführen, stehen Technologieunternehmen wie OpenAI, Google und Meta vor Herausforderungen bei der Beschaffung der notwendigen digitalen Daten zur Fortentwicklung ihrer Technologie. Dieser Artikel beleuchtet die Strategien, zu denen diese Unternehmen greifen, ihre möglichen Verstöße gegen Regeln und Gesetze und den wachsenden Durst nach Daten in der KI-Branche.

OpenAI, bekannt für leistungsstarke KI-Modelle, sah sich Ende 2021 mit einem Versorgungsproblem konfrontiert, als alle seriösen englischsprachigen Textquellen im Internet zur Schulung seines KI-Systems erschöpft waren. Um diese Hürde zu überwinden, entwickelten OpenAI-Forscher ein Spracherkennungstool namens Whisper. Der Zweck dieses Tools bestand darin, Audio aus YouTube-Videos zu transkribieren und somit neuen Konversationstext bereitzustellen, der die Fähigkeiten ihres KI-Systems verbessern könnte.

Jedoch traten Bedenken innerhalb von OpenAI hinsichtlich einer möglichen Verletzung der Regeln von YouTube durch die Nutzung ihrer Videos für diese „unabhängige“ Anwendung auf. Trotz der Bedenken ging ein OpenAI-Team unter der Leitung von Greg Brockman, dem Präsidenten von OpenAI, dazu über, über eine Million Stunden YouTube-Videos zu transkribieren. Die resultierenden Texte wurden dann genutzt, um GPT-4 zu schulen, eines der leistungsstärksten KI-Modelle weltweit und die Grundlage für die neueste Version des ChatGPT-Chatbots.

Ebenso erwogen bei Meta (ehemals Facebook) die Manager, Anwälte und Ingenieure des Unternehmens den Erwerb des Verlagshauses Simon & Schuster. Durch den Zugang zu umfangreichen schriftlichen Werken wollte Meta eine wertvolle Datenquelle sichern. Zudem diskutierte das Unternehmen die Extraktion urheberrechtlich geschützter Daten aus verschiedenen Internetquellen. In einigen Fällen waren sie bereit, potenzielle rechtliche Auseinandersetzungen zu riskieren, anstatt Lizenzen mit Verlagen und Inhaltserstellern zu verhandeln.

Die Entwicklung von KI-Modellen hat in den letzten Jahren einen bedeutenden Wandel durchgemacht. Vor 2020 stützten sich Modelle wie GPT-2 auf relativ kleine Trainingsdatenmengen. Mit der Veröffentlichung von GPT-3 begannen Forscher jedoch, wesentlich größere Datensätze einzubeziehen und erkannten die Bedeutung des Datenvolumens für eine effektive Schulung der Modelle.

Da die KI-Branche weiterhin an Grenzen stößt, ist die Beschaffung großer Datenmengen entscheidend für weitere Fortschritte. Unternehmen wie OpenAI und Meta sind bereit, an die Grenzen zu gehen, möglicherweise Regeln zu dehnen und rechtliche Risiken einzugehen, um ihren Datenanforderungen gerecht zu werden. Die Debatte über die ethischen und rechtlichen Aspekte der Datenbeschaffung in der KI-Branche wird voraussichtlich fortgesetzt, während die Technologie voranschreitet.

Zur weiteren Erkundung dieses Themas können Sie sich auf folgende Quellen beziehen:
– The New York Times: www.nytimes.com
– Epoch: www.epoch.com

The source of the article is from the blog klikeri.rs

Privacy policy
Contact