Cálculo na computação de IA: os cientistas não têm acesso a chips poderosos para sua pesquisa

Cálculo na computação de IA: os cientistas não têm acesso a chips poderosos para sua pesquisa
Many university scientists are frustrated with the limited computing performance, which for their research in the field of Artificial intelligence (KI) está disponível, como uma pesquisa entre acadêmicos em dezenas de instituições em todo o mundo.
Os resultados 1 , que foram publicadas no servidor pré-impressão arxiv com os sistemas de computação mais avançados. Isso pode afetar sua habilidade, Processadores gráficos (GPUs) Para serem comprados com chips que são frequentemente usados para treinar modelos de IA e podem custar vários milhares de dólares. Por outro lado, os pesquisadores têm orçamentos mais altos em grandes empresas de tecnologia e podem gastar mais em GPUs. "Toda GPU acrescenta mais energia", diz o co -autor do Estudo Apoorv Khandelwal, cientista da computação da Brown University em Providence, Rhode Island. "Embora esses gigantes industriais possam ter milhares de GPUs, os acadêmicos podem ter apenas alguns".
"A lacuna entre modelos acadêmicos e industriais é grande, mas pode ser muito menor", diz Stella Biderman, diretora administrativa da Eleutherai, uma organização sem fins lucrativos da AI Research Institute em Washington DC. A pesquisa sobre essa desigualdade é "muito importante", acrescenta ela.
tempos de espera lentos
Para avaliar os recursos de computação disponíveis para acadêmicos, Khandelwal e seus colegas pesquisaram 50 cientistas de 35 instituições. Dos entrevistados, 66% avaliaram sua satisfação com seu poder de computação com 3 ou menos em uma escala de 5. "Eles não estão satisfeitos", diz Khandelwal.
As universidades têm regulamentos diferentes para acesso às GPUs. Alguns podem ter um cluster de computação central compartilhado por departamentos e estudantes, onde os pesquisadores podem solicitar o tempo da GPU. Outras instituições podem comprar máquinas que podem ser usadas diretamente pelos membros do laboratório.
Alguns cientistas relataram que tiveram que esperar dias para obter acesso às GPUs e notaram que os tempos de espera eram particularmente altos (consulte "Aceitação de recursos de cálculo"). Os resultados também ilustram as desigualdades globais no acesso. Por exemplo, um entrevistado mencionou as dificuldades de encontrar GPUs no Oriente Médio. Apenas 10% dos entrevistados declararam que o acesso a , chips poderosos que foram desenvolvidos para pesquisa de IA.
Essa barreira torna o processo de pré-treinamento a alimentação de grandes registros de dados em LLMS-particularmente desafiadores. "É tão caro que a maioria dos acadêmicos nem está pensando em fazer ciência em pré-treinamento", diz Kaufenwal. Ele e seus colegas são da opinião de que os acadêmicos oferecem uma perspectiva única na pesquisa de IA e que a falta de acesso ao poder de computação pode restringir o campo de pesquisa. "É simplesmente importante ter um ambiente de pesquisa acadêmica saudável e competitivo para crescimento a longo prazo e desenvolvimento tecnológico a longo prazo", diz a co -autora Ellie Pavlick, que estuda ciência da computação e linguística na Universidade Brown. "Se você tem pesquisas na indústria, há uma clara pressão comercial, que às vezes tenta usar e explorar menos rápido". métodos eficientes Os pesquisadores também examinaram como os acadêmicos poderiam usar melhor os recursos de computação menos poderosos. Eles calculam quanto tempo seria necessário para treinar vários LLMs com hardware com baixo consumo de recursos - entre 1 e 8 GPUs. Apesar desses recursos limitados, os pesquisadores conseguiram treinar com sucesso muitos dos modelos, embora demorasse mais e tivessem que aplicar métodos mais eficientes. "Podemos realmente usar as GPUs que temos mais tempo e, portanto, podemos compensar algumas das diferenças entre o que a indústria tem", diz Kaufwal. "É emocionante ver que você pode realmente treinar um modelo maior do que muitas pessoas levariam, mesmo com recursos aritméticos limitados", diz Ji -ung Lee, os modelos de neuroexplicitos da Universidade de Saarland em Saarbrücken, Alemanha. Ele acrescenta que trabalhos futuros podem analisar as experiências de pesquisadores industriais em pequenas empresas que também combatem o acesso a recursos aritméticos. "Não é o caso de todos que têm acesso ao poder de computação ilimitado realmente recebe isso", diz ele. khandelwal, A. et al. Pré -impressão em arxiv https://doi.org/10.48550/arxiv.2410.23261 (2024). >