Forciranje AI da kodira: Ključ za napredovanje velikih jezičnih modela

Dok se tehnologija generativne AI ubrzano razvija posljednjih godina, bivši izvršni direktor tvrtke Salesforce, Richard Socher, vjeruje da još uvijek postoji prostor za poboljšanje. U jednom podcastu za Harvard Business Review, Socher je raspravljao o tome kako možemo unaprijediti velike jezične modele tako da ih potaknemo na reakciju na kodirane upite umjesto samo predviđanja sljedećeg tokena.

Trenutno, veliki jezični modeli se oslanjaju na predviđanje sljedećeg tokena na temelju prethodnih podataka. Iako ovi modeli pokazuju impresivne vještine čitanja i kodiranja, često pate od halucinacija, gdje proizvode činjenične pogreške kao da su istinite. To postaje posebno problematično kada se suoče s kompleksnim matematičkim pitanjima.

Socher je pružio primjer pitanja s kojim bi se veliki jezični model mogao suočiti: “Ako bih na rođenju dao bebi 5.000 dolara za ulaganje u indeksni fond bez naknade, uz pretpostavku određenog postotka prosječnog godišnjeg prirasta, koliko će imati između dvije i pet godina?” Umjesto pažljivog razmatranja pitanja i izvođenja potrebnih izračuna, model bi generirao tekst na temelju sličnih pitanja s kojima se već susreo.

Da bi prevladali ovu ograničenost, Socher predlaže “prisiljavanje” modela da prevedu pitanje u računalni kod i generiraju odgovor na temelju tog koda. Na taj način, model je vjerojatnije da će pružiti točan odgovor. Socher je spomenuo da su na njihovom AI-powered pretraživaču, You.com, uspjeli prevesti pitanja u Python kod.

Za razliku od uobičajenog pristupa jednostavnom povećanju podataka i računalne snage, Socher sugerira da će programiranje igrati ključnu ulogu u napredovanju velikih jezičnih modela. Poučavanjem ovih modela kodiranju, oni će steći dublje razumijevanje i raznovrsnije sposobnosti rješavanja problema. Ovaj programski pristup će im omogućiti suočavanje s kompleksnijim zadacima u budućnosti.

Dok se natjecanje među velikim jezičnim modelima intenzivira, s GPT-4 iz OpenAI i Gemini iz Googlea koji se natječu za prevlast, Socherova perspektiva pruža svježu točku gledišta o naprednim sposobnostima AI-ja. Umjesto isticanja samo povećanja podataka, prisiljavanje AI modela da kodiraju moglo bi otključati njihov puni potencijal i dovesti do značajnih napretka u ovom području.

Učestala pitanja (FAQ) o poboljšanju velikih jezičnih modela putem kodiranja

P: Kakav je izazov s trenutnim velikim jezičnim modelima?
O: Trenutni veliki jezični modeli imaju ograničenja u pružanju točnih odgovora na složena pitanja, posebno ona koja zahtijevaju matematičke izračune. Često pate od halucinacija, gdje stvaraju činjenične pogreške kao da su istinite.

P: Koje je predloženo rješenje za prevladavanje tih ograničenja?
O: Richard Socher predlaže “prisiljavanje” velikih jezičnih modela da prevedu pitanja u računalni kod i generiraju odgovore na temelju tog koda. Na taj način, modeli su vjerojatniji da će pružiti točne odgovore.

P: Kako prevođenje pitanja u kod poboljšava modele?
O: Prevođenje pitanja u kod pomaže modelima da steknu dublje razumijevanje pitanja i omogućuje im obavljanje potrebnih izračuna. Ovaj pristup poboljšava njihove sposobnosti rješavanja problema i povećava vjerojatnost točnih odgovora.

P: Je li ovaj pristup implementiran u nekom AI-powered pretraživaču?
O: Da, na You.com, AI-powered pretraživaču, uspješno su preveli pitanja u Python kod kako bi poboljšali točnost odgovora.

P: Kako se ovaj pristup kodiranja razlikuje od tradicionalnog pristupa povećanju podataka i računalne snage?
O: Socher sugerira da će poučavanje velikih jezičnih modela kodiranju biti ključno za napredovanje njihovih sposobnosti, umjesto da se oslanjaju samo na povećanje podataka. Programiranjem modela, oni stječu dublje razumijevanje i raznovrsnije sposobnosti rješavanja problema kako bi se suočili s kompleksnijim zadacima u budućnosti.

P: Kako se Socherova perspektiva ističe u natjecanju među velikim jezičnim modelima?
O: Socherova perspektiva donosi svježu točku gledišta o napredovanju AI sposobnosti. Umjesto isticanja samo povećanja podataka, prisiljavanje AI modela da kodiraju moglo bi otključati njihov puni potencijal i dovesti do značajnih napretka u ovom području.

Preporučeni povezani linkovi:
OpenAI – službena web stranica OpenAI, poznata po svojim velikim jezičnim modelima poput GPT-4.
Google – službena web stranica Googlea, tvrtke koja stoji iza velikih jezičnih modela poput Gemini.

The source of the article is from the blog regiozottegem.be