L’intelligenza artificiale presto subentrerà in progetti che richiedono settimane all’uomo

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

L’intelligenza artificiale sta migliorando rapidamente e potrebbe presto intraprendere progetti che richiedono settimane per essere completati dagli esseri umani. L’analisi degli esperti mostra che i principali modelli di intelligenza artificiale stanno facendo progressi e potrebbero completare le attività con competenze umane in meno tempo entro il 2029.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
L’intelligenza artificiale sta migliorando rapidamente e potrebbe presto intraprendere progetti che richiedono settimane per essere completati dagli esseri umani. L’analisi degli esperti mostra che i principali modelli di intelligenza artificiale stanno facendo progressi e potrebbero completare le attività con competenze umane in meno tempo entro il 2029.

L’intelligenza artificiale presto subentrerà in progetti che richiedono settimane all’uomo

Gli odierni sistemi di intelligenza artificiale (AI) non possono superare gli esseri umani in compiti lunghi, ma si stanno evolvendo rapidamente ulteriormente e potrebbe colmare il divario più velocemente di quanto molti si aspettassero, secondo un’analisi dei principali modelli 1.

L’organizzazione no-profit METR con sede a Berkeley, in California, ha sviluppato quasi 170 attività del mondo reale nell’ambito della programmazione, della sicurezza informatica, del ragionamento generale e dell’apprendimento automatico, quindi ha stabilito una “base umana” misurando il tempo impiegato dagli esperti per completare tali attività.

Il team ha quindi sviluppato una metrica per valutare i progressi Modelli di intelligenza artificiale, che è chiamato "orizzonte temporale di completamento dell'attività". Questo è il tempo impiegato in genere dai programmatori per completare le attività che i modelli di intelligenza artificiale possono completare con un certo tasso di successo.

In una prestampa pubblicata questa settimana su arXiv, METR riferisce che GPT-2, uno dei primi modelli di linguaggio di grandi dimensioni (LLM) rilasciato da OpenAI nel 2019, ha fallito in tutte le attività che richiedevano agli esperti umani più di un minuto. Claude 3.7 Sonnet, rilasciato a febbraio dalla startup statunitense Anthropic, ha completato il 50% delle attività che richiederebbero a un essere umano 59 minuti.

Nel complesso, secondo lo studio, l’orizzonte temporale dei 13 principali modelli di IA è raddoppiato circa ogni sette mesi dal 2019. La crescita esponenziale degli orizzonti temporali dell’IA ha subito un’accelerazione nel 2024, con gli ultimi modelli che raddoppiano il loro orizzonte circa ogni tre mesi. Il lavoro non è stato ancora formalmente rivisto.

Andando avanti dal 2019 al 2024, METR suggerisce che i modelli di intelligenza artificiale saranno in grado di completare compiti che richiedono agli esseri umani circa un mese con un’affidabilità del 50% entro il 2029, forse anche prima.

Un mese di competenze umane dedicate, suggerisce il documento, può essere sufficiente per avviare una nuova azienda o fare scoperte scientifiche.

Tuttavia, Joshua Gans, professore di management presso l’Università di Toronto in Canada, che ha scritto sull’economia dell’intelligenza artificiale, spiega che tali previsioni non sono particolarmente utili. “Le estrapolazioni sono allettanti, ma c’è ancora così tanto che non sappiamo su come verrà effettivamente utilizzata l’intelligenza artificiale affinché queste previsioni abbiano senso”, afferma.

Giudicare gli esseri umani rispetto all’intelligenza artificiale

Il team ha scelto la percentuale di successo del 50% perché era la più resistente ai piccoli cambiamenti nella distribuzione dei dati. “Se si scelgono soglie molto basse o molto alte, l’aggiunta o la rimozione di una singola attività riuscita o fallita cambia di conseguenza notevolmente la stima”, spiega il coautore Lawrence Chan.

L'aumento dell'affidabilità dal 50% all'80% ha ridotto l'orizzonte temporale medio di un fattore cinque, anche se il tempo di raddoppio complessivo e la linea di tendenza erano simili.

Negli ultimi cinque anni sono stati apportati miglioramenti al competenze generali dei LLM guidato principalmente da aumenti di scala: la quantità di dati di addestramento, il tempo di addestramento e il numero di parametri del modello. Il documento attribuisce il progresso nella metrica dell’orizzonte temporale principalmente ai miglioramenti nel ragionamento logico, nell’uso degli strumenti, nella correzione degli errori e nella fiducia nelle attività.

L’approccio di METR alla valutazione degli orizzonti temporali affronta alcuni dei limiti dei benchmark di intelligenza artificiale esistenti, che corrispondono solo vagamente al lavoro del mondo reale e diventano rapidamente “saturati” man mano che i modelli migliorano. Fornisce una misura continua e intuitiva che cattura meglio i progressi significativi nel tempo, afferma il coautore Ben West.

I principali modelli di intelligenza artificiale raggiungono in molti casi prestazioni sovrumane Test di riferimento, ma finora hanno avuto un impatto economico relativamente scarso, spiega West. L'ultima ricerca del METR offre una risposta parziale a questo enigma: i modelli migliori mostrano un intervallo di tempo di circa 40 minuti e non c'è molto lavoro economicamente valido che una persona possa fare in quel lasso di tempo, ha detto West.

Tuttavia, Anton Troynikov, ricercatore e imprenditore di intelligenza artificiale di San Francisco, California, spiega che l’intelligenza artificiale avrebbe un impatto economico maggiore se le organizzazioni fossero più disposte a sperimentare e investire nell’utilizzo efficace dei modelli.

  1. Kwa, T. et al. Prestampa su arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Scarica riferimenti