Eksplorowanie Potencjału Szkolenia AI bez Naruszania Praw Autorskich

Sztuczne modele inteligencji (AI) od dawna były szkolone przy użyciu materiałów chronionych prawem autorskim, ale ostatnie postępy wskazują, że istnieją alternatywne metody szkolenia tych modeli bez naruszania praw własności intelektualnej. Grupa badaczy wspieranych przez rząd francuski udostępniła znaczący zbiór danych do szkolenia AI, składający się wyłącznie z tekstu znajdującego się w domenie publicznej. Ten przełomowy zbiór danych stanowi dowód na to, że duże modele językowe można szkolić bez konieczności korzystania z materiałów chronionych prawem autorskim.

Organizacja non-profit Fairly Trained także ogłosiła, że pomyślnie certyfikowała swój pierwszy duży model językowy o nazwie KL3M. Model ten został opracowany przez 273 Ventures, startup konsultingowy z Chicago specjalizujący się w technologii prawniczej, przy użyciu dobrze wyselekcjonowanego zbioru treningowego dokumentów prawnych, finansowych i regulacyjnych. Przestrzegając praw autorskich i wykorzystując własny zbiór danych, 273 Ventures udowodniło, że jest możliwe budowanie dużych modeli językowych bez kontrowersyjnego naruszania praw autorskich.

Według Jillian Bommarito, współzałożycielki 273 Ventures, decyzja o szkoleniu KL3M przy użyciu własnego zbioru danych była podyktowana klientami z branży prawniczej, którzy unikają ryzyka. Klienci ci byli zaniepokojeni pochodzeniem danych i chcieli zapewnień, że ich model AI nie opiera się na zanieczyszczonych lub chronionych danych. Korzystając z starannie wybranego zbioru danych, Bommarito podkreśla, że rozmiar modelu nie musi być ogromny, a wysokiej jakości dane mogą przynieść lepsze rezultaty i specjalizację.

Podczas gdy zbiory danych jak KL3M są obecnie ograniczone pod względem wielkości w porównaniu z tymi skompilowanymi przez gigantów branży, takich jak OpenAI, istnieje nadzieja na przyszłość. Badacze niedawno udostępnili Common Corpus, który podobno jest największym dostępnym zbiorem danych AI dla modeli językowych, składającym się wyłącznie z treści znajdujących się w domenie publicznej. Ten zbiór danych, udostępniony na platformie AI typu open-source Hugging Face, zawiera teksty z gazet zdominowanych przez instytucje takie jak Biblioteka Kongresu Stanów Zjednoczonych i Biblioteka Narodowa Francji. Common Corpus ma na celu dostarczenie badaczom i startupom sprawdzonego zbioru treningowego, który nie ma obciążeń związanych z prawami autorskimi.

Mimo że zbiory danych składające się z treści z domeny publicznej mają swoje ograniczenia, takie jak potencjalnie przestarzałe informacje, stanowią one nieoceniony zasób do szkolenia dużych modeli językowych. Projekty takie jak Common Corpus i KL3M dowodzą rosnącej sceptyczności społeczności AI wobec argumentu o zbieraniu danych bez zgody. Faktycznie, Fairly Trained niedawno certyfikował swoją pierwszą firmę oferującą modele głosowe AI, co pokazuje rosnący trend w branży ku uzyskiwaniu właściwych licencji i poszanowaniu praw własności intelektualnej.

FAQ

The source of the article is from the blog agogs.sk

Privacy policy
Contact