A IA em breve assumirá projetos que levam semanas para humanos
A inteligência artificial está melhorando rapidamente e poderá em breve assumir projetos que levarão semanas para serem concluídos. A análise de especialistas mostra que os principais modelos de IA estão a fazer progressos e poderão concluir tarefas com conhecimentos humanos em menos tempo até 2029.

A IA em breve assumirá projetos que levam semanas para humanos
Os atuais sistemas de inteligência artificial (IA) não conseguem superar os humanos em tarefas longas, mas estão evoluindo rapidamente ainda mais e poderia preencher a lacuna mais rapidamente do que muitos esperavam, de acordo com uma análise dos principais modelos 1.
O METR, uma organização sem fins lucrativos com sede em Berkeley, Califórnia, desenvolveu quase 170 tarefas do mundo real em programação, segurança cibernética, raciocínio geral e aprendizado de máquina, e depois estabeleceu uma “linha de base humana” medindo o tempo que os especialistas levaram para concluir essas tarefas.
A equipe então desenvolveu uma métrica para avaliar o progresso do Modelos de IA, que é chamado de “horizonte de tempo de conclusão da tarefa”. Este é o tempo que normalmente leva para os programadores concluirem as tarefas que os modelos de IA podem concluir com uma certa taxa de sucesso.
Em uma pré-impressão publicada esta semana no arXiv, o METR relata que o GPT-2, um dos primeiros modelos de linguagem grande (LLM) lançado pela OpenAI em 2019, falhou em todas as tarefas que demoravam mais de um minuto para os especialistas humanos. O Claude 3.7 Sonnet, lançado em fevereiro pela startup americana Antrópico, completou 50% das tarefas que levariam 59 minutos para humanos.
No geral, o horizonte temporal dos 13 principais modelos de IA duplicou aproximadamente a cada sete meses desde 2019, de acordo com o estudo. O crescimento exponencial dos horizontes temporais da IA acelerou em 2024, com os modelos mais recentes a duplicarem o seu horizonte aproximadamente a cada três meses. O trabalho ainda não foi formalmente revisado.
Avançando de 2019 para 2024, o METR sugere que os modelos de IA serão capazes de concluir tarefas que levam cerca de um mês aos humanos com 50% de confiabilidade até 2029, talvez até mais cedo.
Um mês de experiência humana dedicada, sugere o artigo, pode ser suficiente para iniciar uma nova empresa ou fazer descobertas científicas.
No entanto, Joshua Gans, professor de gestão da Universidade de Toronto, no Canadá, que escreveu sobre a economia da IA, explica que tais previsões não são particularmente úteis. “As extrapolações são tentadoras, mas ainda há muito que não sabemos sobre como a IA será realmente usada para que essas previsões façam sentido”, diz ele.
Julgando humanos versus IA
A equipe escolheu a taxa de sucesso de 50% porque era mais robusta a pequenas alterações na distribuição de dados. “Se você escolher limites muito baixos ou muito altos, adicionar ou remover uma única tarefa bem-sucedida ou com falha altera significativamente a estimativa”, explica o coautor Lawrence Chan.
O aumento da confiabilidade de 50% para 80% reduziu o horizonte de tempo médio por um fator de cinco - embora o tempo geral de duplicação e a linha de tendência fossem semelhantes.
Nos últimos cinco anos, foram introduzidas melhorias no habilidades gerais de LLMs impulsionado principalmente por aumentos de escala – a quantidade de dados de treinamento, o tempo de treinamento e o número de parâmetros do modelo. O artigo atribui o progresso na métrica do horizonte temporal principalmente às melhorias no raciocínio lógico, no uso de ferramentas, na correção de erros e na confiança nas tarefas.
A abordagem do METR para avaliar horizontes temporais aborda algumas das limitações dos benchmarks de IA existentes, que correspondem apenas vagamente ao trabalho do mundo real e rapidamente se tornam “saturados” à medida que os modelos melhoram. Ele fornece uma medida contínua e intuitiva que captura melhor o progresso significativo ao longo do tempo, diz o coautor Ben West.
Os principais modelos de IA alcançam desempenho sobre-humano em muitos Teste de referência, mas até agora tiveram relativamente pouco impacto económico, explica West. A pesquisa mais recente do METR oferece uma resposta parcial a esse quebra-cabeça: os melhores modelos mostram um período de tempo de cerca de 40 minutos, e não há muito trabalho economicamente valioso que uma pessoa possa realizar nesse período, disse West.
No entanto, Anton Troynikov, investigador e empresário de IA de São Francisco, Califórnia, explica que a IA teria um impacto económico maior se as organizações estivessem mais dispostas a experimentar e investir na utilização eficaz dos modelos.
-
Kwa, T. et al. Pré-impressão no arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).