A Prostredníctvom AI školenia bez porušenia autorských práv

Umelá inteligencia (AI) sa dlho trénovala pomocou chránených materiálov, ale nedávne vývoje naznačujú, že existujú alternatívne spôsoby, ako trénovať tieto modely bez porušenia duševného vlastníctva. Skupina výskumníkov podporovaná francúzskou vládou uvoľnila významný dataset na školenie AI zložený výhradne z textu v verejnom doméne. Tento inovatívny dataset poskytuje dôkazy, že veľké jazykové modely možno trénovať bez potreby neoprávnenej práce s chránenými materiálmi.

Neprofitná organizácia Fairly Trained tiež oznámila, že úspešne certifikovala svoj prvý veľký jazykový model s názvom KL3M. Tento model bol vyvinutý spoločnosťou 273 Ventures, štartupovou poradenskou spoločnosťou z Chicaga, a použil kurátorský školiaci dataset právnych, finančných a regulačných dokumentov. Dodržiavaním autorských práv a používaním vlastného datasetu 273 Ventures preukázal, že je možné vytvoriť veľké jazykové modely bez kontroverzného problému porušovania autorských práv.

Podľa Jiliánne Bommarito, spoluzakladateľky 273 Ventures, ich rozhodnutie trénovať KL3M pomocou vlastného datasetu bolo ovplyvnené ich klientmi, ktorí sa vyhýbajú riziku v právnom priemysle. Títo klienti mali obavy o zdroj dát a žiadali záruky, že ich AI model nebol založený na znečistených alebo chránených dátach. Použitím starostlivo kurátorského datasetu Bommarito zdôraznila, že veľkosť modelu nemusí byť prehnane veľká a že vysokokvalitné dáta môžu viesť k lepšiemu výkonu a špecializácii.

Zatiaľ čo datasety ako KL3M sú momentálne obmedzené veľkosťou v porovnaní s tými, ktoré zostavili priemyselní giganti ako OpenAI, existujú nádeje do budúcnosti. Výskumníci nedávno uvoľnili spoločný korpus, ktorý tvrdia, že je najväčším dostupným datasetom AI pre jazykové modely zložené výlučne z obsahu verejnej domény. Tento dataset, zverejnený na open-source platforme AI Hugging Face, obsahuje text z novín vytlačených inštitúciami ako US Library of Congress a National Library of France. Spoločný korpus má za cieľ poskytnúť výskumníkom a startupom overený trénovací súbor, ktorý je bez obáv z autorských práv.

Aj keď datasety zložené z obsahu verejnej domény majú svoje obmedzenia, ako napríklad zastarané informácie, ponúkajú neoceniteľný zdroj pre trénovanie veľkých jazykových modelov. Projekty ako Spoločný korpus a KL3M preukazujú narastajúcu skepsu v komunite AI voči argumentom o neoprávnenej reci dát. V skutočnosti Fairly Trained nedávno certifikoval svoju prvú spoločnosť, ktorá ponúka hlasové modely AI, čo naznačuje, že v priemysle narastá trend získavania správnej licencie a dodržiavania autorských práv.

Často kladené otázky (FAQ)

1. Čo je Fairly Trained?
Fairly Trained je nezisková organizácia, ktorá ponúka certifikácie firmám, ktoré dokážu, že trénovali svoje AI modely na dátach, ktoré buď vlastnia, získali licenciu alebo sú vo verejnej doméne. Cieľom Fairly Trained je podporovať spravodlivé a etické postupy pri vývoji AI.

2. Akým spôsobom sa KL3M líši od ostatných veľkých jazykových modelov?
KL3M je unikátny tým, že bol trénovaný pomocou kurátorského datasetu právnych, finančných a regulačných dokumentov dodržiavajúcich autorské právo. Na rozdiel od iných modelov sa KL3M vyhýba problémom porušovania autorských práv a poskytuje autoritatívne a dôveryhodné výsledky, čo ho robí ideálnym pre klientov v právnom priemysle.

3. Čo je dataset Spoločný korpus?
Spoločný korpus je dataset AI zostavený z obsahu verejnej domény, ako sú digitalizované noviny z inštitúcií ako US Library of Congress a National Library of France. Jeho cieľom je ponúknuť výskumníkom a startupom overený trénovací súbor bez problémov s autorskými právami, hoci nemusí obsahovať najaktuálnejšie informácie.

4. Prečo narastá trend smerom k licencovaniu v AI?
Keďže sa technológia AI rozvíja a stáva sa zložitejšou, stúpa povedomie o potrebe rešpektovať intelektuálne vlastníctvo. Mnohé organizácie, vrátane Authors Guild a SAG-AFTRA, podporujú misiu Fairly Trained na podporu spravodlivých licenčných prác pri vývoji AI.

The source of the article is from the blog elblog.pl