Jaunie risinājumi AI apmācībai bez autortiesību pārkāpumiem

Mākslīgā inteliģence (AI) modeļi ir redzējuši būtiskus attīstības solus pēdējos gados, taču viena no problēmām, kas saistīta ar šo modeļu apmācību, ir bijusi autortiesību materiālu izmantošana. Tomēr tagad parādās alternatīvi risinājumi, kas ļauj apmācīt AI modeļus, nenodarot autortiesību tiesības.

Grupa pētnieku, ko atbalsta Francijas valdība, ir ieguldījusi ievērojamu ieguldījumu šajā jomā, izlaižot AI apmācības datukopu, kas sastāv tikai no teksta publiskajā domēnā. Šis datukopu sniedz pierādījumus, ka lieli valodu modeļi var tikt apmācīti bez nepieciešamības izmantot autortiesību materiālus bez atļaujas. Šī attīstība atver jaunas iespējas AI modeļu apmācībai, nodrošinot atbilstību autortiesību likumiem.

Turklāt labdarības organizācija Fairly Trained ir sasniegusi būtisku posmu, sekmīgi sertificējot savu pirmo lielo valodu modeli ar nosaukumu KL3M. To izstrādājusi 273 Ventures, Ņūčikagā bāzēta juridisko tehnoloģiju konsultatīva “startup” uzņēmums, un KL3M tika apmācīts izmantojot rūpīgi atlasītu datukopu, kas ietver juridiskus, finansiālus un reglamentējošus dokumentus. Ievērojot autortiesību likumus un izmantojot savu datukopu, 273 Ventures ir pierādījis, ka ir iespējams veidot lielus valodu modeļus bez sastrīdīgiem autortiesību pārkāpumu jautājumiem.

Džillianas Bommarito, 273 Ventures līdzdibinātāja, norāda uz to, ka viņu lēmumu apmācīt KL3M izmantojot savu datukopu, virza viņu nozares klienti, kuri ir risku izvairīgāki juridiskās nozarē. Klienti bija satraukti par datu avotu un vēlējās garantijas, ka viņu AI modelis balstās uz nenostājotiem vai ar autortiesībām aizsargātiem datiem. Bommarito uzsver, ka modelim nav jābūt pārlieku lielam, un akcentē augstas kvalitātes datu nozīmi, lai panāktu labāku veiktspēju un specializāciju.

Lai arī datukopiem kā KL3M pašreizēji var būt mazāks apmērs salīdzinājumā ar tiem, kas apkopoti nozarēs lielo uzņēmumu kā OpenAI, nākotne izskatās cerīga. Pētnieki nesen ir izlaiduši Common Corpus, ko viņi apgalvo par lielāko pieejamo AI datukopu valodu modeļiem, kas sastāv vienīgi no publiskajā domēnā esoša satura. Šis datukopu, publicēts atvērtā koda AI platformā Hugging Face, satur tekstu no publiskajā domēnā esošiem avīžu digitālajiem archīviem, digitalizētiem institūcijās kā ASV Kongresa bibliotēka un Francijas Nacionālā bibliotēka. Common Corpus mērķis ir nodrošināt pētniekiem un “startup” uzņēmumiem atlasītu apmācību datukopu, kas ir brīvs no autortiesību bažām.

Lai arī datukopi, kas sastāv no publiskajā domēnā esoša satura, ir ar ierobežojumiem, piemēram, iespējams saturēt novecojušu informāciju, tie piedāvā nenovērtējamu resursu lielu valodu modeļu apmācībai. Projekti kā Common Corpus un KL3M liecina par aizvien pieaugošu skeptiķismu AI kopienā attiecībā uz argumentu par neiejaukšanos datu “raspāšanas” jautājumā. Patiesībā, Fairly Trained nesen sertificēja savu pirmo uzņēmumu, kas piedāvā AI balsu modeļus, demonstrējot, ka nozarē ir pieaugošs trends uz pienācīgas licences iegūšanu un intelektuālā īpašuma tiesību ievērošanu.

## Bieži uzdotie jautājumi (BUJ)
1. Kas ir Fairly Trained?
Fairly Trained ir labdarības organizācija, kas piedāvā sertifikācijas uzņēmumiem, kas var pierādīt, ka viņi savus AI modeļus ir apmācījuši ar datiem, kuriem viņiem ir tiesības vai kas ir publiskajā domēnā. Fairly Trained mērķis ir veicināt godīgu un etisku praksi AI izstrādē.

2. Kā KL3M atšķiras no citiem lieliem valodu modeļiem?
KL3M ir unikāls, jo tas ir apmācīts, izmantojot atlasītu datukopu ar juridiskiem, finansiāliem un reglamentējošiem dokumentiem, kas atbilst autortiesību likumam. Atšķirībā no citiem modeļiem, KL3M izvairās no autortiesību pārkāpumu jautājumiem un sniedz autoritatīvus un uzticamus rezultātus, padarot to ideālu klientiem juridiskajā nozarē.

3. Kas ir Common Corpus datukopums?
Common Corpus ir AI datukopums, kas izveidots no publiskajā domēnā esoša satura, piemēram, digitalizētas avīzes no institūcijām kā ASV Kongresa bibliotēka un Francijas Nacionālā bibliotēka. Tas mērķē piedāvāt pētniekiem un “startup” uzņēmumiem atlasītu apmācību datukopu, kas ir brīvs no autortiesību bažām, kaut arī tas var neietvert jaunāko informāciju.

4. Kāpēc notiek pieaugošs tendence uz licencēšanu AI jomā?
Ar AI tehnoloģijas attīstību un progresēšanu palielinās apziņa par nepieciešamību ievērot intelektuālā īpašuma tiesības. Daudzas organizācijas, tostarp Rakstnieku Ģildes un SAG-AFTRA, atbalsta Fairly Trained misiju veicināt godīgu licences praksi AI izstrādē.

The source of the article is from the blog lisboatv.pt