AI laboratorijos perkelia dėmesį nuo masto prie pažangesnių mokymų esant iššūkiams, skatinant naujos kartos technologijas

Kadangi dirbtinio intelekto įmonės susiduria su vis didesniais iššūkiais kurdamos galingesnius kalbos modelius, kai kurie įtakingiausi pasaulio AI mokslininkai ir investuotojai teigia, kad mokymo metodų pakeitimas gali pakeisti pramonės konkurencinę aplinką. Aukščiausių dirbtinio intelekto įmonių, įskaitant OpenAI, lyderiai dabar tiria naujus metodus, imituojančius žmogaus samprotavimus, nutoldami nuo šią sritį apibrėžiančios filosofijos „didesnis, tuo geriau“. ”

Dešimtys mokslininkų, tyrėjų ir investuotojų sakė „Reuters“ manantys, kad šios naujos technologijos, kurių pavyzdys yra naujasis „OpenAI“ modelis „o1“, gali pakeisti. Suteikdamos modeliams galimybę „mąstyti“ labiau kaip žmonės, dirbtinio intelekto laboratorijos siekia daugiau pasiekti turimais ištekliais, o ne tiesiog pridėti duomenų ir skaičiavimo galios. Tačiau „OpenAI“ atsisakė komentuoti.

AI bumas, paskatintas OpenAI ChatGPT sėkmės 2022 m., paskatino technologijų įmonių inovacijas ir akcijų vertinimą. Tačiau, kaip pastebi AI pionieriai, tokie kaip Ilja Sutskeveris, OpenAI vienas iš įkūrėjų ir dabar Safe Superintelligence (SSI) vadovas, „didinimo ribos“ tapo aiškios. Sutskeveris, kadaise buvęs pagrindinis masinio duomenimis pagrįsto modelio kūrimo šalininkas, dabar sako: „2010-ieji buvo mastelio keitimo amžius; dabar grįžtame į stebuklų ir atradimų amžių.

AI modelio mokymas – daug pastangų reikalaujantis procesas, apimantis šimtus brangių lustų ir mėnesius trunkantį apdorojimo laiką – buvo apimtas vėlavimų ir įrangos gedimų, praneša šaltiniai. Be to, didžiulis energijos poreikis ir ribotas lengvai prieinamų treniruočių duomenų pasiūla sutrukdė bandymams pranokti esamų modelių, tokių kaip GPT-4, našumą.

Siekdami išspręsti šias problemas, mokslininkai kuria „bandymo laiko skaičiavimą“, leidžiantį modeliams realiu laiku apdoroti kelias galimybes išvadų fazėje, imituojant žmogaus sprendimų priėmimą. Šis metodas gali skirti papildomos skaičiavimo galios sudėtingoms užduotims, tokioms kaip matematika ir kodavimas, o rezultatai yra daug žadantys. „OpenAI“ tyrinėtojas Noamas Brownas neseniai vykusioje TED AI konferencijoje paaiškino: „Pokerio žaidime robotas pagalvodavo tik 20 sekundžių, našumas taip pat padidintas, kaip ir modelio padidinimas 100 000 kartų.

Liepos mėn. pristatytas OpenAI o1 modelis įkūnija šią filosofiją, integruodamas į žmones panašias problemų sprendimo galimybes su kuruojamais doktorantų ir pramonės ekspertų atsiliepimais. Šis hibridinis mokymo metodas remiasi „baziniais“ modeliais, tokiais kaip GPT-4, ir tikimasi, kad ateityje bus galima naudoti didelių kalbų modelius.

Kiti geriausi AI žaidėjai, tokie kaip Anthropic, xAI ir Google DeepMind, taip pat investuoja į šiuos metodus, tikėdamiesi patobulinti realaus laiko modelio išvadas. „Kol žmonės pasivys, būsime dar trimis žingsniais priekyje“, – spalį vykusioje konferencijoje sakė OpenAI vyriausiasis produktų pareigūnas Kevinas Weilas.

Perėjimas prie išvadomis pagrįstų mokymo metodų gali reikšmingai paveikti AI aparatinės įrangos poreikį, kurį istoriškai dominavo „Nvidia“ mokymo lustai. Rizikos kapitalistai iš tokių firmų kaip Sequoia ir Andreessen Horowitz, kurie investavo milijardus į AI sektorių, iš naujo vertina savo strategijas, nes išvadomis pagrįsti „debesys“ tampa vis svarbesni. Sonya Huang, „Sequoia“ partnerė, pabrėžė, kad šie „išvadų debesys“ netrukus gali pakeisti išankstinio mokymo grupes.

Nors „Nvidia“, neseniai karūnuota vertingiausia pasaulio įmone, pirmauja mokymo lustų rinkoje, ji gali susidurti su konkurencija besiformuojančiame išvadų sektoriuje. „Nvidia“ generalinis direktorius Jensenas Huangas praėjusį mėnesį pripažino šį pokytį, sakydamas: „Dabar atradome antrąjį mastelio dėsnį, ir tai yra mastelio dėsnis išvados metu“, nurodydamas didėjančią jų naujausio į išvadas orientuoto lusto „Blackwell“ paklausą.

Dirbtinio intelekto laboratorijoms keičiantis nuo didžiulio masto prie strateginių išvadų pažangos, pramonė vėl atsidūrė ant transformacijos slenksčio – iš naujo apibrėžiama, kaip modeliai mokosi ir veikia, ir pertvarkoma pagrindinės juos užtikrinančios technologijos.