Tekoälyn tietojenkäsittelyjako: Tieteilijöiden käytettävissä ei ole tehokkaita siruja tutkimusta varten

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Akateemikot ympäri maailmaa kamppailevat riittämättömän laskentatehon kanssa tekoälytutkimukseen. Tutkimus osoittaa suuria eroja pääsyssä GPU:ihin.

Akademiker weltweit kämpfen mit unzureichender Rechenleistung für KI-Forschung. Umfrage zeigt große Unterschiede im Zugang zu GPUs.
Akateemikot ympäri maailmaa kamppailevat riittämättömän laskentatehon kanssa tekoälytutkimukseen. Tutkimus osoittaa suuria eroja pääsyssä GPU:ihin.

Tekoälyn tietojenkäsittelyjako: Tieteilijöiden käytettävissä ei ole tehokkaita siruja tutkimusta varten

Monet yliopistotutkijat ovat turhautuneita heidän käytettävissään olevan rajallisen laskentatehon vuoksi tekoälyä (AI) on saatavilla, kuten kymmenien instituutioiden tutkijoille tehty tutkimus maailmanlaajuisesti osoittaa.

Tulokset 1, julkaistu 30. lokakuuta preprint-palvelimella arXiv, viittaavat siihen, että tutkijoilla ei ole pääsyä edistyneimpiin tietokonejärjestelmiin. Tämä voi vaikuttaa kykyysi suuret kielimallit (LLM) kehittää ja toteuttaa muita tekoälytutkimusprojekteja.

Erityisesti akateemisilla tutkijoilla ei toisinaan ole resursseja olla tehokkaita Grafiikkaprosessorit (GPU) ostaa – tietokonesiruja, joita käytetään yleisesti AI-mallien kouluttamiseen ja jotka voivat maksaa useita tuhansia dollareita. Sitä vastoin suurten teknologiayritysten tutkijoilla on suuremmat budjetit ja he voivat käyttää enemmän GPU:ihin. "Jokainen GPU lisää tehoa", sanoo tutkimuksen toinen kirjoittaja Apoorv Khandelwal, tietojenkäsittelytieteilijä Brownin yliopistosta Providencessa, Rhode Islandissa. "Vaikka näillä alan jättiläisillä voi olla tuhansia grafiikkasuorituksia, akateemikoilla voi olla vain muutama."

"Akateemisten ja teollisten mallien välinen kuilu on suuri, mutta voisi olla paljon pienempi", sanoo Stella Biderman, Washington DC:ssä sijaitsevan voittoa tavoittelemattoman tekoälytutkimuslaitoksen EleutherAI:n toiminnanjohtaja. Tämän eriarvoisuuden tutkimus on "erittäin tärkeää", hän lisää.

Hitaat odotusajat

Arvioidakseen tutkijoiden käytettävissä olevia laskentaresursseja Khandelwal ja hänen kollegansa haastattelivat 50 tiedemiestä 35 laitoksesta. Tutkituista 66 % arvioi tyytyväisyytensä laskentatehoonsa 3 tai vähemmän asteikolla 5. "He eivät ole lainkaan tyytyväisiä", Khandelwal sanoo.

Yliopistoilla on erilaiset säännökset pääsystä GPU: hin. Joillakin saattaa olla laitosten ja opiskelijoiden kesken jaettu keskuslaskentaklusteri, josta tutkijat voivat pyytää GPU-aikaa. Muut laitokset voisivat ostaa koneita, joita laboratorion jäsenet voivat käyttää suoraan.

Jotkut tutkijat ilmoittivat, että joutuivat odottamaan päiviä saadakseen pääsyn grafiikkasuorituksiin, ja huomauttivat, että odotusajat olivat erityisen pitkiä projektin määräaikojen ympärillä (katso "Laskennan resurssien pullonkaula"). Tulokset korostavat myös maailmanlaajuista epätasa-arvoa pääsyssä. Esimerkiksi yksi vastaaja mainitsi vaikeudet löytää grafiikkasuorituksia Lähi-idästä. Vain 10 prosenttia vastaajista ilmoitti, että heillä on pääsy NVIDIAn H100 GPU:t, jolla on tehokkaat sirut, jotka on suunniteltu tekoälytutkimukseen.

Tämä este tekee esikoulutusprosessista – suurten tietojoukkojen syöttämisestä LLM:ille – erityisen haastavaa. "Se on niin kallista, että useimmat tutkijat eivät edes harkitse tieteen tekemistä esikoulutuksessa", Khandelwal sanoo. Hän ja hänen kollegansa uskovat, että tutkijat tarjoavat ainutlaatuisen näkökulman tekoälytutkimukseen ja että laskentatehon puute voi rajoittaa tutkimuskenttää.

"On todella tärkeää, että meillä on terve, kilpailukykyinen akateeminen tutkimusympäristö pitkän aikavälin kasvulle ja pitkän aikavälin teknologiselle kehitykselle", sanoo toinen kirjoittaja Ellie Pavlick, joka opiskelee tietojenkäsittelytiedettä ja kielitiedettä Brownin yliopistossa. "Kun sinulla on tutkimusta teollisuudessa, on selkeitä kaupallisia paineita, jotka joskus houkuttelevat sinua hyödyntämään nopeammin ja tutkimaan vähemmän."

Tehokkaat menetelmät

Tutkijat tutkivat myös, kuinka akateemikot voisivat hyödyntää paremmin vähemmän tehokkaita laskentaresursseja. He laskivat, kuinka paljon aikaa vaadittaisiin useiden LLM:ien esikouluttamiseen käyttämällä vähän resursseja vaativaa laitteistoa – 1–8 GPU:ta. Näistä rajallisista resursseista huolimatta tutkijat onnistuivat kouluttamaan monia malleja onnistuneesti, vaikka se kestikin kauemmin ja vaati tehokkaampien menetelmien käyttöä.

"Voimme itse asiassa käyttää GPU:ta, joka meillä on pidempään, ja näin voimme tasoittaa joitain eroja alan välillä", Khandelwal sanoo.

"On jännittävää nähdä, että voit todella kouluttaa suuremman mallin kuin monet ihmiset kuvittelevat, jopa rajallisilla laskentaresursseilla", sanoo Ji-Ung Lee, joka tutkii neuroeksplisiittisiä malleja Saarlandin yliopistossa Saarbrückenissä, Saksassa. Hän lisää, että tulevassa työssä voitaisiin tarkastella teollisten tutkijoiden kokemuksia pienyrityksistä, jotka myös kamppailevat laskentaresurssien saatavuuden kanssa. "Ei ole niin, että jokainen, jolla on pääsy rajattomaan laskentatehoon, todella saa sen", hän sanoo.

  1. Khandelwal, A. et ai. Preprint osoitteessa arXiv https://doi.org/10.48550/arXiv.2410.23261 (2024).

Lataa viitteitä