Új irányvonalak a mesterséges intelligencia képzésében

A mesterséges intelligencia (MI) modellek számára hosszú ideje olyan szerzői jogok alatt álló anyagokat használtak képzésre, ám a legújabb fejlemények azt sugallják, hogy léteznek alternatív módszerek a modellek képzésére, anélkül hogy sértenék az iparjogvédelmi jogokat. Egy francia kormány támogatásával működő kutatócsoport jelentős MI képzési adathalmazt tett közzé, amely kizárólag közvagyonba tartozó szövegekből áll. Ez az áttörést hozó adathalmaz bizonyítékot szolgáltat arra, hogy nagy nyelvi modelleket lehet képezni az iparjogi anyagok engedély nélküli felhasználása nélkül.

A nonprofit szervezet, a Fairly Trained szintén bejelentést tett arról, hogy sikeresen tanúsította az első nagy nyelvi modelljét, KL3M néven. Ez a modell a 273 Ventures, egy chicagói alapítású jogi technológiai tanácsadó startup által fejlesztett modell, amely egy gondosan összeállított képzési adathalmazt használ jogi, pénzügyi és szabályozó dokumentumokból. A szerzői jogi szabályok betartása és saját adathalmazuk használata révén a 273 Ventures bebizonyította, hogy lehetséges nagy nyelvi modelleket építeni a szerzői jogi vitás kérdése nélkül.

Jillian Bommarito, a 273 Ventures társalapítója szerint a KL3M képzésre használt saját adathalmazra való döntésüket az ő kockázatkerülő ügyfeleik a jogi iparágban motiválták. Az ügyfelek aggódtak az adat forrása miatt, és biztosítékot akartak arra, hogy MI modelljük nem alapul védett vagy letiltott adatokon. Bommarito hangsúlyozza, hogy a modell mérete nem kell, hogy túlságosan nagy legyen, és azt hangsúlyozza, hogy a magas minőségű adatok jobb teljesítményhez és specializációhoz vezethetnek.

Bár az olyan adathalmazok, mint a KL3M jelenleg kisebbek lehetnek az OpenAI által összeállítottal összehasonlítva, van remény a jövőre nézve. A kutatók nemrégiben kiadták a Common Corpus-t, amelyet állításuk szerint a legnagyobb elérhető MI adathalmaznak tartanak nyelvi modellek számára, kizárólag közvagyonba tartozó tartalommal. Ez az adathalmaz, amely az nyílt forráskódú MI platformon, a Hugging Face-en található, olyan szövegeket tartalmaz közvagyonba tartozó újságokból, amelyeket olyan intézmények digitalizáltak, mint az US Library of Congress és a Francia Nemzeti Könyvtár. A Common Corpus célja, hogy a kutatók és a kezdő vállalkozások számára olyan tanító készletet nyújtson, amely mentes a szerzői jogi aggodalmaktól.

Bár az közvagyonba tartozó tartalmakból álló adathalmazoknak vannak korlátai, például az elavult információk lehetősége, értékes erőforrást jelentenek a nagy nyelvi modellek képzéséhez. A Common Corpus és a KL3M projekt olyan növekvő szkepticizmust mutatnak az MI közösségben az engedély nélküli adatkaparás elleni érveléssel szemben. Valójában a Fairly Trained nemrégiben tanúsította az első céget, amely AI hangmodelleket kínál, ami azt mutatja, hogy az iparágban növekvő tendencia van a megfelelő licencelések beszerzése és az iparjogvédelmi jogok tiszteletben tartása felé.

Gyakran Ismételt Kérdések (GYIK)The source of the article is from the blog exofeed.nl

Gyakran Ismételt Kérdések (GYIK)
The source of the article is from the blog exofeed.nl