L'IA prenderà presto il controllo dei progetti che costeranno alle persone settimane

L'IA prenderà presto il controllo dei progetti che costeranno alle persone settimane
Gli attuali sistemi di intelligenza artificiale (AI) non possono superare le persone su compiti lunghi, tuttavia, rapido e avrebbe potuto chiudere il divario più velocemente di molti previsti, secondo i dati di dati 1
L'organizzazione non profit Metreley, in California, ha sviluppato quasi 170 compiti reali nelle aree di programmazione, sicurezza informatica, pensiero generale e apprendimento meccanico e quindi ha determinato una "linea di base umana" prendendo il tempo che necessitava degli esperti per completare queste attività.
Il team ha quindi sviluppato una cifra chiave per valutare l'avanzamento di Modelli AI , che si chiama" compiti del tempo, orizzonte temporale ". Questo è il momento in cui i programmatori in genere hanno bisogno di completare le attività, possono eseguire i modelli AI con un certo tasso di successo.
In una preprint pubblicata questa settimana in ARXIV riferisce che GPT-2, un primo modello vocale (LLM), che è stato pubblicato da Openai nel 2019, ha fallito in tutti i compiti che gli esperti umani costano più di un minuto. Claude 3.7 Sonnet, che è stato rilasciato dalla start-up americana antropica a febbraio, ha completato il 50 % dei compiti che la gente avrebbe impiegato 59 minuti.
Nel complesso, l'orizzonte temporale dei 13 principali modelli di AI è raddoppiato ogni sette mesi dal 2019, secondo lo studio. La crescita esponenziale degli orizzonti del tempo AI accelera nel 2024, con gli ultimi modelli raddoppiano i loro orizzonti ogni tre mesi. Il lavoro non è stato ancora ufficialmente esaminato.
Nei progressi dal 2019 al 2024, Metr suggerisce che i modelli AI possono gestire compiti entro il 2029 che le persone hanno bisogno di circa un mese, con un'affidabilità del 50 %, forse anche prima.
Un mese di competenza umana impegnata, secondo il documento, può essere sufficiente per avviare una nuova società o fare scoperte scientifiche.
Joshua Gans, professore di gestione all'Università di Toronto in Canada, che ha scritto sull'economia dell'IA, spiega che tali previsioni non sono particolarmente utili. "Le estrapolazioni sono allettanti, ma c'è ancora così tanto che non sappiamo come viene effettivamente usata l'IA in modo che queste previsioni abbiano senso", afferma.
Valutazione dell'umano rispetto a Ki
Il team ha scelto il tasso di successo del 50 %perché è stato molto robusto rispetto ai piccoli cambiamenti nella distribuzione dei dati. "Se si sceglie valori di soglia molto bassi o molto alti, aggiungendo o rimuovendo un singolo compito di successo o fallito, modifica la stima in base a", spiega il co -a autore Lawrence Chan.
Un aumento dell'affidabilità dal 50 % all'80 % ha ridotto l'orizzonte temporale medio di un fattore di cinque, sebbene il tempo generale di raddoppio e la linea di tendenza fossero simili.
Negli ultimi cinque anni, i miglioramenti di principalmente guidato da una scala aumenta, la quantità di dati di addestramento, il tempo di addestramento e il numero di parametri del modello. Il documento conduce i progressi nella figura chiave dell'orizzonte temporale principalmente a miglioramenti negli argomenti logici, l'uso di strumenti, la correzione degli errori e la fiducia in se stessi nell'adempimento delle attività.
L'approccio Metr per valutare l'orizzonte temporale affronta alcune delle restrizioni dei benchmark di AI esistenti, che corrispondono al lavoro reale e sono rapidamente "saturi" quando i modelli migliorano. Offre una misura continua e intuitiva che registra meglio progressi significativi per un periodo di tempo più lungo, afferma Mitautor Ben West.
I principali modelli di AI ottengono prestazioni sovrumane a molti Ma finora hanno avuto effetti economici relativamente bassi, spiega West
Anton Troynikov, ricercatore e imprenditore di intelligenza artificiale di San Francisco, in California, spiega che l'intelligenza artificiale avrebbe una maggiore influenza economica se le organizzazioni fossero meglio disposte a sperimentare e investire in un uso efficace dei modelli. KWA, T. et al. Preprint at arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025). >