A IA em breve assumirá projetos que levam semanas para humanos

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

A inteligência artificial está melhorando rapidamente e poderá em breve assumir projetos que levarão semanas para serem concluídos. A análise de especialistas mostra que os principais modelos de IA estão a fazer progressos e poderão concluir tarefas com conhecimentos humanos em menos tempo até 2029.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
A inteligência artificial está melhorando rapidamente e poderá em breve assumir projetos que levarão semanas para serem concluídos. A análise de especialistas mostra que os principais modelos de IA estão a fazer progressos e poderão concluir tarefas com conhecimentos humanos em menos tempo até 2029.

A IA em breve assumirá projetos que levam semanas para humanos

Os atuais sistemas de inteligência artificial (IA) não conseguem superar os humanos em tarefas longas, mas estão evoluindo rapidamente ainda mais e poderia preencher a lacuna mais rapidamente do que muitos esperavam, de acordo com uma análise dos principais modelos 1.

O METR, uma organização sem fins lucrativos com sede em Berkeley, Califórnia, desenvolveu quase 170 tarefas do mundo real em programação, segurança cibernética, raciocínio geral e aprendizado de máquina, e depois estabeleceu uma “linha de base humana” medindo o tempo que os especialistas levaram para concluir essas tarefas.

A equipe então desenvolveu uma métrica para avaliar o progresso do Modelos de IA, que é chamado de “horizonte de tempo de conclusão da tarefa”. Este é o tempo que normalmente leva para os programadores concluirem as tarefas que os modelos de IA podem concluir com uma certa taxa de sucesso.

Em uma pré-impressão publicada esta semana no arXiv, o METR relata que o GPT-2, um dos primeiros modelos de linguagem grande (LLM) lançado pela OpenAI em 2019, falhou em todas as tarefas que demoravam mais de um minuto para os especialistas humanos. O Claude 3.7 Sonnet, lançado em fevereiro pela startup americana Antrópico, completou 50% das tarefas que levariam 59 minutos para humanos.

No geral, o horizonte temporal dos 13 principais modelos de IA duplicou aproximadamente a cada sete meses desde 2019, de acordo com o estudo. O crescimento exponencial dos horizontes temporais da IA ​​acelerou em 2024, com os modelos mais recentes a duplicarem o seu horizonte aproximadamente a cada três meses. O trabalho ainda não foi formalmente revisado.

Avançando de 2019 para 2024, o METR sugere que os modelos de IA serão capazes de concluir tarefas que levam cerca de um mês aos humanos com 50% de confiabilidade até 2029, talvez até mais cedo.

Um mês de experiência humana dedicada, sugere o artigo, pode ser suficiente para iniciar uma nova empresa ou fazer descobertas científicas.

No entanto, Joshua Gans, professor de gestão da Universidade de Toronto, no Canadá, que escreveu sobre a economia da IA, explica que tais previsões não são particularmente úteis. “As extrapolações são tentadoras, mas ainda há muito que não sabemos sobre como a IA será realmente usada para que essas previsões façam sentido”, diz ele.

Julgando humanos versus IA

A equipe escolheu a taxa de sucesso de 50% porque era mais robusta a pequenas alterações na distribuição de dados. “Se você escolher limites muito baixos ou muito altos, adicionar ou remover uma única tarefa bem-sucedida ou com falha altera significativamente a estimativa”, explica o coautor Lawrence Chan.

O aumento da confiabilidade de 50% para 80% reduziu o horizonte de tempo médio por um fator de cinco - embora o tempo geral de duplicação e a linha de tendência fossem semelhantes.

Nos últimos cinco anos, foram introduzidas melhorias no habilidades gerais de LLMs impulsionado principalmente por aumentos de escala – a quantidade de dados de treinamento, o tempo de treinamento e o número de parâmetros do modelo. O artigo atribui o progresso na métrica do horizonte temporal principalmente às melhorias no raciocínio lógico, no uso de ferramentas, na correção de erros e na confiança nas tarefas.

A abordagem do METR para avaliar horizontes temporais aborda algumas das limitações dos benchmarks de IA existentes, que correspondem apenas vagamente ao trabalho do mundo real e rapidamente se tornam “saturados” à medida que os modelos melhoram. Ele fornece uma medida contínua e intuitiva que captura melhor o progresso significativo ao longo do tempo, diz o coautor Ben West.

Os principais modelos de IA alcançam desempenho sobre-humano em muitos Teste de referência, mas até agora tiveram relativamente pouco impacto económico, explica West. A pesquisa mais recente do METR oferece uma resposta parcial a esse quebra-cabeça: os melhores modelos mostram um período de tempo de cerca de 40 minutos, e não há muito trabalho economicamente valioso que uma pessoa possa realizar nesse período, disse West.

No entanto, Anton Troynikov, investigador e empresário de IA de São Francisco, Califórnia, explica que a IA teria um impacto económico maior se as organizações estivessem mais dispostas a experimentar e investir na utilização eficaz dos modelos.

  1. Kwa, T. et al. Pré-impressão no arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Baixar referências