Teknologiayritykset etenevät edistyneiden tekoäly-chatbottien kanssa.

Kolossiset datavaatimukset ja suuri laskentateho tarvitaan, jotta AI-chatbotit yltävät huippusuoritukseensa korostavat jatkuvaa kehitystä tekoälyn alalla. Vahvistusoppiminen, olennainen prosessi AI-suorituskyvyn parantamiseksi, perustuu pääasiassa ihmispalautteeseen hienosäätääkseen tekoälyn vastauksen laatua. Tämän seurauksena mitä enemmän dataa syötetään näihin malleihin, sitä tarkempia ja luotettavampia ne muuttuvat, vähentäen ”hallusinaatioiden” eli virheellisten tulosteiden esiintymistiheyttä.

Luontainen suuntaus kohti ’giganttisuutta’ vaatii häikäisevää laskennallista voimaa oppimisprosessin aikana ja myöhemmin miljoonien käyttäjien palvelemiseen. Esimerkiksi maaliskuussa ChatGPT:llä oli 200 miljoonaa aktiivista käyttäjää. Tällaisten laskentatehojen toimittaminen edellyttää ennennäkemätöntä laitteiston, ohjelmiston ja energian saatavuutta – aloittaen uuden aikakauden tietojenkäsittelyhistoriassa.

Näiden laajamittaisten kielijärjestelmien luominen ja ylläpito edellyttävät taloudellisia sitoumuksia, joita vain harvat suuryritysten jättiläiset voivat varaa. Tekniikkajätit – Meta, Microsoft, Google ja Amazon – investoivat väitetysti huomattavat 32 miljardia dollaria teknologiseen infrastruktuuriinsa pelkästään vuoden 2004 ensimmäisinä neljänä kuukautena tukemaan nopeasti kehittyviä AI-toiminnallisuuksia.

Tämä asettaa vaikuttavan kynnyksen markkinalle, jonka odotetaan kasvavan biljoonan dollarin arvoksi vuoteen 2031 mennessä. Tämän kynnyksen pienentäminen on tullut keskeiseksi tavoitteeksi, ja askelia otetaan kohti uusia oppimismalleja, jotka merkittävästi vähentävät ihmisen osallisuuden tarvetta datan hienosäädössä. Nämä innovatiiviset mallit, kuten eurooppalaisen startup-yhtiön Mistralin ratkaisuissa ja alkuyrityksissä, kuten Anthropicin Claude tai Metan tulevassa Llama 3:ssa, ovat myös mainittu olevan jopa seitsemän kertaa energiatehokkaampia kuin OpenAI:n ja Google Geminin käyttämät mallit.

Äskettäin Amazonin tutkijat esittivät menetelmän (mallin tyhjennys), jonka avulla voi poistaa ei-toivottua dataa ja virheitä AI-malleista ilman nollatuksen tarvetta.

Kenties kuitenkin häiritsevin innovaatio tulee pienempien, erikoistuneempien ja kustannustehokkaampien AI-järjestelmien kehityksestä. Näiden supistettujen mallien avulla voidaan toteuttaa monimutkaisia AI-ominaisuuksia älypuhelimissa, kameroissa ja sensoreissa, mahdollistaen edistyneiden AI-ominaisuuksien saatavuuden pienemmille yrityksille ja ammattilaisille ilman tarvetta pilvelle tai internetyhteydelle, tehden samalla tehokkaammin yksityisyyden ja tietosuojan huomioimisen.

Tällä viikolla Microsoft julkaisi Phi-3:n ja Applen OpenELM:n, kielimalliperheet, jotka toimivat vähemmällä laskentateholla ja ovat julkisesti saatavilla. Microsoftin Phi-3-sarja, Sébastien Bubeckin mukaan, Microsoftin Generatiivisen tekoälyn tutkimuksen varapuheenjohtaja, poikkeaa teollisuuden trendeistä keskittymällä hallittaviin malleihin, kuten Phi-3 mini, vaihtoehtona suuremmille malleille, jotka on kehitelty yhdessä OpenAI:n kanssa. Phi-3:n vahva suorituskyky, joka vastaa ChatGPT:n ilmaisen version 3.5, johtuu huolellisesta koulutusdatan kuraatiosta, joka varmistaa laadun ja tarkkuuden.

Apple, jakamalla samanlaista filosofiaa, suunnitteli OpenELM:n menestymään iPhonella ja muilla laitteilla tasapainottaen suoritusta ja järjestelmävaatimuksia, mahdollistaen paikallisen toiminnan suoraan käyttäjän laitteella.