Ai em breve assumirá projetos que custarão às pessoas semanas

Ai em breve assumirá projetos que custarão às pessoas semanas
Os sistemas atuais de inteligência artificial (AI) não podem exceder as pessoas em tarefas longas, no entanto, Rapid e poderia ter fechado a lacuna mais rápida do que muitos que esperam, de acordo com uma análise dos principais modelos 1
A organização sem fins lucrativos Metroreley, Califórnia, desenvolveu quase 170 tarefas reais nas áreas de programação, segurança cibernética, pensamento geral e aprendizado mecânico e, em seguida, determinou uma "linha de base humana", dedicando um tempo que precisava dos especialistas para concluir essas tarefas.
A equipe então desenvolveu uma figura-chave para avaliar o progresso de Ai Models , que é chamado de" tarefas do tempo, horizonte de tempo ". Este é o momento em que os programadores normalmente precisam concluir as tarefas, podem realizar os modelos de IA com uma certa taxa de sucesso.
Em uma pré-impressão publicada esta semana no ARXIV relata que o GPT-2, um modelo de voz grande (LLM), publicado pelo OpenAI em 2019, falhou em todas as tarefas que os especialistas humanos custam mais de um minuto. Claude 3,7 Sonnet, que foi divulgado pela start-up dos EUA em fevereiro, completou 50 % das tarefas que as pessoas levariam 59 minutos.
No geral, o horizonte de tempo dos 13 modelos principais de IA dobrou a cada sete meses desde 2019, de acordo com o estudo. O crescimento exponencial dos horizontes do tempo da IA acelerou em 2024, com os modelos mais recentes dobram seus horizontes a cada três meses. O trabalho ainda não foi formalmente examinado.
No progresso de 2019 a 2024, o METR sugere que os modelos de IA podem gerenciar tarefas até 2029 que as pessoas precisam de cerca de um mês, com uma confiabilidade de 50 %, possivelmente até mais cedo.
Um mês de conhecimento humano comprometido, de acordo com o artigo, pode ser suficiente para iniciar uma nova empresa ou fazer descobertas científicas.
Joshua Gans, Professor de administração da Universidade de Toronto, no Canadá, que escreveu sobre a economia da IA, explica que essas previsões não são particularmente úteis. "As extrapolações são tentadoras, mas ainda há tanto que não sabemos como a IA é realmente usada para que essas previsões façam sentido", diz ele.Avaliação do humano versus ki
A equipe escolheu a taxa de sucesso de 50 %porque foi mais robusta em comparação com pequenas alterações na distribuição de dados. "Se você escolher valores de limite muito baixos ou muito altos, adicionar ou remover uma única tarefa bem -sucedida ou com falha altera a estimativa de acordo com", explica o co -autor Lawrence Chan.
Um aumento na confiabilidade de 50 % para 80 % reduziu o horizonte médio de tempo em um fator de cinco - embora o tempo geral de duplicação e a linha de tendência fossem semelhantes.
Nos últimos cinco anos, as melhorias de impulsionado principalmente pela escala aumenta a quantidade de dados de treinamento, tempo de treinamento e número de parâmetros do modelo. O artigo leva o progresso na figura -chave do horizonte de tempo principalmente para melhorias no argumento lógico, o uso de ferramentas, correção de erros e auto -confiança no cumprimento das tarefas.
A abordagem METR para avaliar o horizonte de tempo aborda algumas das restrições dos benchmarks de AI existentes, que correspondem apenas ao trabalho real e são rapidamente "saturados" quando os modelos melhoram. Oferece uma medida contínua e intuitiva que registra um melhor progresso significativo por um longo período de tempo, diz Mitautor Ben West.
Os modelos de IA líderes alcançam desempenho sobre-humano em muitos Anton Troynikov, pesquisador e empresário de IA de San Francisco, Califórnia, explica que a IA teria uma influência econômica maior se as organizações estivessem mais dispostas a experimentar e investir no uso eficaz dos modelos.
- >
- >>
kwa, T. et al. Preprint at arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).