Nye Tilnærmingar til Opplæring av AI Modellar utan Opphavsrettsinfringement

Kunstig intelligens (AI) modellar har sett betydelege framsteg dei siste åra, men ein av utfordringane med opplæring av desse modellane har vore bruken av opphavsrettsbeskytta materialar. Likevel har det no kome fram alternative metodar som gjer det mogeleg å trene AI-modellar utan å krenke immaterialrettar.

Ei gruppe forskarar støtta av den franske regjeringa har gjort ein gjennombrotne bidrag på dette området ved å gje ut ei AI-treningsdatabase som er heilt samansett av tekst i det offentlege domenet. Denne databasen gir bevis for at store språkmodellar kan bli trent utan behovet for ukritisk bruk av opphavsrettsbeskytta materiale. Dette opnar opp nye moglegheiter for opplæring av AI-modellar mens ein følgjer opphavsrettsloven.

I tillegg har den ideelle organisasjonen Fairly Trained oppnådd ein betydeleg milepæl ved å sertifisere sin første store språkmodell kalla KL3M. Utvikla av 273 Ventures, ein oppstartsbedrift for juridisk teknologi basert i Chicago, vart KL3M trent ved hjelp av ei kuratert database som består av juridiske, finansielle og regulatoriske dokument. Ved å fylgje opphavsrettsloven og nyttiggjere seg deira eigne data har 273 Ventures vist at det er mogleg å byggje store språkmodellar utan den kontroversielle problemstillinga med opphavsrettsinngrep.

Jillian Bommarito, medgrunnleggjar av 273 Ventures, viser til bekymringane til dei risikoaverse klientane i juridisk bransje som motivasjon bak deira avgjerd om å trene KL3M ved hjelp av deira eigne database. Klientane ønska forsikring om at deira AI-modell ikkje var basert på opphavsrettsbeskytta eller ureine data. Bommarito understrekar at modellens storleik ikkje treng å vere overveldande stor, og understrekar viktigheita av data av høg kvalitet for å oppnå betre ytelse og spesialisering.

Sjølv om databasar som KL3M kan være mindre i dag samanlikna med dei samla av industriegigantar som OpenAI, er det håp for framtida. Forskarar har nyleg lansert Common Corpus, som dei hevdar er den største tilgjengelege AI-databasen for språkmodellar, samansett berre av materiale i det offentlege domenet. Denne databasen, verta på den openkjelde AI-plattforma Hugging Face, inkluderer tekst frå aviser i det offentlege domenet digitalisert av institusjonar som det amerikanske kongressbiblioteket og det franske nasjonalbiblioteket. Common Corpus siktar på å gi forskarar og oppstartsselskap med ei kuratert opplæringssett som er fritt for opphavsrettsbekymringar.

Sjølv om databasar sammensatt av offentlig materiale har sine begrensningar, som moglegheit for å innehalde gammaldags informasjon, offer dei ei uvurderleg ressurs for opplæring av store språkmodellar. Prosjekt som Common Corpus og KL3M viser ein veksande skepsis i AI-miljøet mot argumentet om ukritisk databestealing. Faktisk, har Fairly Trained nyleg sertifisert det første selskapet til å tilby AI-stemmmodellar, og viser at ein aukande trend i bransjen er å skaffe seg rett lisensiering og respektere immaterielle rettar.

Ofte Stilte Spørsmål (FAQ)

The source of the article is from the blog radardovalemg.com

Privacy policy
Contact