Razkorak v računalništvu AI: Znanstveniki nimajo dostopa do zmogljivih čipov za svoje raziskave
Akademiki po vsem svetu se spopadajo z nezadostno računalniško močjo za raziskave umetne inteligence. Raziskava kaže velike razlike pri dostopu do grafičnih procesorjev.

Razkorak v računalništvu AI: Znanstveniki nimajo dostopa do zmogljivih čipov za svoje raziskave
Mnogi univerzitetni znanstveniki so razočarani zaradi omejene računalniške moči, ki jim je na voljo za njihove raziskave na področju umetna inteligenca (AI) je na voljo, kot kaže raziskava akademikov na desetinah institucij po vsem svetu.
Rezultati 1, objavljen 30. oktobra na strežniku za prednatis arXiv, kažejo, da akademiki nimajo dostopa do najnaprednejših računalniških sistemov. To bi lahko vplivalo na vašo sposobnost veliki jezikovni modeli (LLM) za razvoj in izvajanje drugih raziskovalnih projektov AI.
Zlasti akademski raziskovalci včasih nimajo sredstev, da bi bili močni Grafični procesorji (GPU) za nakup – računalniški čipi, ki se običajno uporabljajo za usposabljanje modelov AI, ki lahko stanejo več tisoč dolarjev. Nasprotno pa imajo raziskovalci v velikih tehnoloških podjetjih večje proračune in lahko porabijo več za grafične procesorje. "Vsak GPE doda več moči," pravi soavtor študije Apoorv Khandelwal, računalniški znanstvenik na Univerzi Brown v Providenceu, Rhode Island. "Medtem ko imajo lahko ti industrijski velikani na tisoče grafičnih procesorjev, jih imajo akademiki morda le nekaj."
"Razkorak med akademskimi in industrijskimi modeli je velik, vendar bi lahko bil veliko manjši," pravi Stella Biderman, izvršna direktorica EleutherAI, neprofitnega raziskovalnega inštituta za umetno inteligenco v Washingtonu DC. Raziskave te neenakosti so "zelo pomembne", dodaja.
Počasne čakalne dobe
Da bi ocenili računalniške vire, ki so na voljo akademikom, so Khandelwal in njegovi kolegi anketirali 50 znanstvenikov iz 35 institucij. Od anketiranih jih je 66 % svoje zadovoljstvo s svojo računalniško močjo ocenilo s 3 ali manj na lestvici 5. »Sploh niso zadovoljni,« pravi Khandelwal.
Univerze imajo različne predpise za dostop do grafičnih procesorjev. Nekateri imajo morda osrednjo računalniško gručo, ki si jo delijo oddelki in študenti, kjer lahko raziskovalci zahtevajo čas GPE. Druge ustanove bi lahko kupile stroje, ki jih lahko neposredno uporabljajo člani laboratorija.
Nekateri znanstveniki so poročali, da so morali čakati več dni, da so pridobili dostop do grafičnih procesorjev, pri čemer so opozorili, da so bile čakalne dobe še posebej visoke okoli projektnih rokov (glejte »Ozko grlo računalniških virov«). Rezultati tudi poudarjajo globalne neenakosti pri dostopu. Na primer, en anketiranec je omenil težave pri iskanju grafičnih procesorjev na Bližnjem vzhodu. Samo 10 % vprašanih je odgovorilo, da imajo dostop do Grafični procesorji NVIDIA H100, imeti zmogljive čipe, zasnovane za raziskave AI.
Zaradi te ovire je postopek predhodnega usposabljanja – vnos velikih naborov podatkov v LLM – še posebej zahteven. »To je tako drago, da večina akademikov sploh ne pomisli, da bi se pred usposabljanjem ukvarjali z znanostjo,« pravi Khandelwal. On in njegovi kolegi verjamejo, da akademiki ponujajo edinstveno perspektivo v raziskavah umetne inteligence in da bi pomanjkanje dostopa do računalniške moči lahko omejilo raziskovalno področje.
»Zelo pomembno je imeti zdravo, konkurenčno akademsko raziskovalno okolje za dolgoročno rast in dolgoročni tehnološki razvoj,« pravi soavtorica Ellie Pavlick, ki študira računalništvo in jezikoslovje na Univerzi Brown. "Ko imate raziskave v industriji, obstajajo jasni komercialni pritiski, ki vas včasih premamijo, da bi hitreje izkoriščali in manj raziskovali."
Učinkovite metode
Raziskovalci so tudi preučili, kako bi lahko akademiki bolje izkoristili manj zmogljive računalniške vire. Izračunali so, koliko časa bi bilo potrebno za predhodno usposabljanje več LLM-jev z uporabo strojne opreme z nizkimi viri – med 1 in 8 GPE-ji. Kljub tem omejenim virom je raziskovalcem uspelo uspešno usposobiti številne modele, čeprav je trajalo dlje in so morali uporabljati učinkovitejše metode.
»Grafične procesorje, ki jih imamo, lahko dejansko uporabljamo dlje in tako lahko zgladimo nekatere razlike med tem, kar ima industrija,« pravi Khandelwal.
»Vznemirljivo je videti, da lahko dejansko trenirate večji model, kot bi si marsikdo predstavljal, tudi z omejenimi računalniškimi viri,« pravi Ji-Ung Lee, ki preučuje nevroeksplicitne modele na univerzi Saarland v Saarbrücknu v Nemčiji. Dodaja, da bi prihodnje delo lahko preučilo izkušnje industrijskih raziskovalcev v majhnih podjetjih, ki se prav tako spopadajo z dostopom do računalniških virov. »Ni tako, da vsakdo, ki ima dostop do neomejene računalniške moči, to tudi dejansko dobi,« pravi.
-
Khandelwal, A. et al. Prednatis na arXiv https://doi.org/10.48550/arXiv.2410.23261 (2024).