Kilka gigantów technologicznych, w tym Apple, stawiają czoła zarzutom szkolenia modeli sztucznej inteligencji za pomocą klipów z YouTube bez zgody twórców treści. Zamiast uzyskać zgodę, te firmy wydobyły napisy z ponad 170 000 filmów za pośrednictwem aplikacji trzeciej strony.
Wpływowi twórcy, tak zwani prominentni vlogerzy technologiczni, tak jak Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver i Jimmy Kimmel, zostali dotknięci tym nieuprawnionym użyciem swoich treści. Wydobyte napisy to transkrypcje treści wideo, co stanowi rażące naruszenie zasad YouTube.
Ujawnienie dochodzenia i wyników
Dochodzenie przeprowadzone przez Proof News rzuciło światło na to, jak niektóre z najbogatszych firm na świecie wykorzystały materiały z tysięcy filmów z YouTube do szkolenia swoich modeli AI, lekceważąc regulacje platformy. Sondaż wykazał, że napisy z 173 536 filmów z YouTube, pochodzących z ponad 48 000 kanałów, zostały wykorzystane przez gigantów technologicznych, takich jak Anthropic, Nvidia, Apple i Salesforce.
Pobrania zostały przeprowadzone przez organizację non-profit EleutherAI, która pomaga programistom w szkoleniu modeli językowych. Pomimo zadeklarowanego celu dostarczania zasobów szkoleniowych dla małych programistów i akademików, zbiór danych został również przyjęty przez główne firmy technologiczne, w tym Apple.
Wykorzystanie zbioru danych Pile
Jak wynika z opublikowanego przez EleutherAI artykułu badawczego, omawiany zbiór danych jest częścią kompilacji znanej jako Pile. Te zbiory danych są publicznie dostępne dla wszystkich w internecie, o ile dysponują odpowiednimi zasobami i mocą obliczeniową. Nie tylko giganci technologiczni, ale także akademicy i programiści spoza dużych firm technologicznych korzystali z tych zbiorów danych.
Firmy takie jak Apple, Nvidia i Salesforce, które mają wyceny w setkach miliardów i bilionach dolarów, szczegółowo opisały w swoich artykułach badawczych, jak wykorzystały Pile do celów szkoleniowych w dziedzinie AI. Raporty wskazują, że Apple wykorzystał Pile do szkolenia modelu językowego OpenELM, który został uruchomiony w kwietniu, krótko przed ujawnieniem nowych funkcji AI dla iPhone’ów i MacBooków.
Dalsze implikacje nieuprawnionego użycia treści do szkolenia AI
Choć początkowe dochodzenie ujawniło szerokie nieuprawnione wydobycie treści z YouTube do szkolenia modeli AI, z tej praktyki wynikają dodatkowe implikacje. Wykorzystanie przez gigantów technologicznych napisów z filmów z YouTube bez wyraźnej zgody twórców treści stawia wiele istotnych pytań, które zasługują na dokładne zbadanie.
Kluczowe pytania:
1. Konsekwencje prawne: Jakie są potencjalne konsekwencje prawne dla firm technologicznych zaangażowanych w nieuprawnione użycie treści z YouTube do szkolenia AI?
Odpowiedź: Firmy mogą stanąć przed pozwami za naruszenie praw autorskich, odszkodowaniami i szkodą dla reputacji za naruszanie praw własności intelektualnej twórców treści bez właściwej autoryzacji.
2. Aspekty etyczne: Jak nieuprawnione użycie treści odzwierciedla standardy etyczne tych gigantów technologicznych?
Odpowiedź: Brak zgody i przejrzystości w wykorzystywaniu treści osób trzecich do rozwoju AI budzi obawy dotyczące praktyk etycznych, praw prywatności i słusznego wynagrodzenia dla twórców.
3. Kwestie prywatności danych: Jakie implikacje ma wydobycie napisów z filmów z YouTube dla prywatności danych użytkowników i bezpieczeństwa?
Odpowiedź: Nieuprawnione przetwarzanie treści wideo do szkolenia AI może naruszyć prywatność użytkownika, ponieważ zawarte w napisach informacje osobiste mogą zostać nadużyte lub źle zarządzane.
Wyzwania i kontrowersje:
Kontrowersje związane z nieuprawnionym użyciem treści z YouTube do szkolenia AI stawiają przed nami kilka wyzwań i kontrowersji, które wymagają uwagi i rozwiązania.
Zalety:
1. Ekonomiczne szkolenie: Dostęp do publicznie dostępnych zbiorów danych, takich jak Pile z platform takich jak YouTube, może zmniejszyć koszty związane z pozyskiwaniem i etykietowaniem ogromnych ilości danych szkoleniowych.
2. Poprawione możliwości AI: Wykorzystując różnorodne źródła treści do szkolenia modeli AI, giganci technologiczni mogą ulepszyć dokładność i wszechstronność swoich systemów AI na potrzeby przyszłych rozwojów.
Wady:
1. Brak przejrzystości: Sekretna ekstrakcja treści wideo bez właściwej atrybucji lub zgody podważa przejrzystość i odpowiedzialność w procesach rozwoju AI.
2. Naruszenie praw własności intelektualnej: Nieuprawnione wykorzystanie materiałów z prawami autorskimi do szkolenia AI powoduje zmartwienie co do praw własności intelektualnej i słusznego wynagrodzenia dla twórców treści.
Aby uzyskać więcej informacji na temat etyki AI, prywatności danych i regulacji technologicznych, odwiedź AoL News.