Το AI θα αναλάβει σύντομα έργα που παίρνουν ανθρώπους εβδομάδες
Η τεχνητή νοημοσύνη βελτιώνεται γρήγορα και σύντομα θα μπορούσε να αναλάβει έργα που παίρνουν ανθρώπους εβδομάδες για να ολοκληρωθούν. Η ανάλυση εμπειρογνωμόνων δείχνει ότι τα κορυφαία μοντέλα AI σημειώνουν πρόοδο και θα μπορούσαν να ολοκληρώσουν τα καθήκοντα με την ανθρώπινη τεχνογνωσία σε λιγότερο χρόνο μέχρι το 2029.

Το AI θα αναλάβει σύντομα έργα που παίρνουν ανθρώπους εβδομάδες
Τα σημερινά συστήματα τεχνητής νοημοσύνης (AI) δεν μπορούν να ξεπεράσουν τους ανθρώπους σε μακρά καθήκοντα, αλλά εξελίσσονται ταχέως Περαιτέρω και θα μπορούσε να κλείσει το κενό ταχύτερα από ό, τι πολλοί αναμενόταν, σύμφωνα με ανάλυση των κορυφαίων μοντέλων 1.
Το μη κερδοσκοπικό METR με έδρα το Berkeley, με έδρα την Καλιφόρνια, ανέπτυξε σχεδόν 170 καθήκοντα πραγματικού κόσμου στον προγραμματισμό, την ασφάλεια στον κυβερνοχώρο, τη γενική συλλογιστική και τη μηχανική μάθηση, στη συνέχεια, καθιέρωσε μια «ανθρώπινη γραμμή βάσης» μετρώντας το χρόνο που χρειάστηκαν ειδικοί για να ολοκληρώσουν αυτά τα καθήκοντα.
Στη συνέχεια, η ομάδα ανέπτυξε μια μέτρηση για να αξιολογήσει την πρόοδο του Μοντέλα AI, το οποίο ονομάζεται "Χρονικός ορίζοντας ολοκλήρωσης εργασίας". Αυτός είναι ο χρόνος που συνήθως χρειάζεται για τους προγραμματιστές να ολοκληρώσουν τις εργασίες που μπορούν να ολοκληρώσουν τα μοντέλα AI με ένα συγκεκριμένο ποσοστό επιτυχίας.
Σε ένα preprint που δημοσιεύθηκε αυτή την εβδομάδα στο ARXIV, η METR αναφέρει ότι η GPT-2, ένα πρώιμο μεγάλο γλωσσικό μοντέλο (LLM) που κυκλοφόρησε από το OpenAI το 2019, απέτυχε σε όλα τα καθήκοντα που έλαβαν ανθρώπινους εμπειρογνώμονες περισσότερο από ένα λεπτό. Claude 3.7 Sonnet, που κυκλοφόρησε τον Φεβρουάριο από την US Startup Anthropic, ολοκλήρωσε το 50% των εργασιών που θα πάρουν ανθρώπους 59 λεπτά.
Συνολικά, ο χρονικός ορίζοντας των 13 μοντέλων AI διπλασιάστηκε περίπου κάθε επτά μήνες από το 2019, σύμφωνα με τη μελέτη. Η εκθετική ανάπτυξη των χρονικών ορίζοντα AI επιταχύνθηκε το 2024, με τα τελευταία μοντέλα να διπλασιάζουν τον ορίζοντα τους περίπου κάθε τρεις μήνες. Το έργο δεν έχει ακόμη αναθεωρηθεί επισήμως.
Προχωρώντας από το 2019 έως το 2024, η METR υποδηλώνει ότι τα μοντέλα AI θα είναι σε θέση να ολοκληρώσουν εργασίες που παίρνουν τους ανθρώπους περίπου ένα μήνα με αξιοπιστία 50% μέχρι το 2029, ίσως ακόμη και νωρίτερα.
Ένας μήνας αφοσιωμένης ανθρώπινης εμπειρογνωμοσύνης, σύμφωνα με το έγγραφο, μπορεί να είναι αρκετός για να ξεκινήσει μια νέα εταιρεία ή να κάνει επιστημονικές ανακαλύψεις.
Ωστόσο, ο Joshua Gans, καθηγητής διοίκησης στο Πανεπιστήμιο του Τορόντο στον Καναδά, ο οποίος έχει γράψει για τα οικονομικά του AI, εξηγεί ότι τέτοιες προβλέψεις δεν είναι ιδιαίτερα χρήσιμες. "Οι παρεκτάσεις είναι δελεαστικές, αλλά εξακολουθούν να υπάρχουν τόσα πολλά που δεν γνωρίζουμε πώς θα χρησιμοποιηθεί πραγματικά για αυτές τις προβλέψεις για να έχουν νόημα", λέει.
Κρίνοντας τους ανθρώπους έναντι του AI
Η ομάδα επέλεξε το ποσοστό επιτυχίας 50%, επειδή ήταν πολύ ισχυρή σε μικρές αλλαγές στην κατανομή δεδομένων. "Εάν επιλέξετε πολύ χαμηλά ή πολύ υψηλά κατώτατα όρια, προσθέτοντας ή αφαιρώντας ένα ενιαίο επιτυχημένο ή αποτυχημένο έργο αλλάζει ανάλογα την εκτίμηση", εξηγεί ο συν-συγγραφέας Lawrence Chan.
Η αύξηση της αξιοπιστίας από 50% σε 80% μείωσε τον μέσο χρονικό ορίζοντα κατά πέντε - παρόλο που ο συνολικός χρόνος διπλασιασμού και η γραμμή τάσεων ήταν παρόμοια.
Κατά τη διάρκεια των τελευταίων πέντε ετών, έγιναν βελτιώσεις στο Γενικές δεξιότητες του LLMS οδηγείται κυρίως από την αύξηση της κλίμακας - το ποσό των δεδομένων κατάρτισης, του χρόνου κατάρτισης και του αριθμού των παραμέτρων μοντέλου. Το χαρτί αποδίδει την πρόοδο στη μέτρηση του χρονικού ορίζοντα κυρίως με βελτιώσεις στη λογική συλλογιστική, τη χρήση εργαλείων, τη διόρθωση σφαλμάτων και την εμπιστοσύνη των εργασιών.
Η προσέγγιση της METR για την αξιολόγηση των χρονικών ορίζων αντιμετωπίζει ορισμένους από τους περιορισμούς των υφιστάμενων σημείων αναφοράς του ΑΙ, οι οποίοι μόνο ταιριάζουν με τη χαλάρωση του πραγματικού έργου και γίνονται γρήγορα "κορεσμένα" καθώς τα μοντέλα βελτιώνονται. Παρέχει ένα συνεχές, διαισθητικό μέτρο που καταγράφει καλύτερα σημαντική πρόοδο με την πάροδο του χρόνου, λέει ο συν-συγγραφέας Ben West.
Τα κορυφαία μοντέλα AI επιτυγχάνουν υπεράνθρωπες επιδόσεις σε πολλά Δοκιμές αναφοράς, αλλά μέχρι στιγμής είχε σχετικά λίγες οικονομικές επιπτώσεις, εξηγεί η Δύση. Η τελευταία έρευνα του Metr προσφέρει μια μερική απάντηση σε αυτό το παζλ: τα καλύτερα μοντέλα δείχνουν ένα χρονικό πλαίσιο περίπου 40 λεπτών και δεν υπάρχει πολύ οικονομικά πολύτιμη δουλειά που μπορεί να κάνει ένα άτομο εκείνη την εποχή, δήλωσε η West.
Ωστόσο, ο Anton Troynikov, ερευνητής και επιχειρηματίας του AI από το Σαν Φρανσίσκο της Καλιφόρνια, εξηγεί ότι η AI θα είχε μεγαλύτερο οικονομικό αντίκτυπο εάν οι οργανισμοί ήταν πιο πρόθυμοι να πειραματιστούν και να επενδύσουν στη χρήση των μοντέλων αποτελεσματικά.
-
KWA, Τ. Et αϊ. Προετοιμασία στο Arxiv https://doi.org/10.48550/arxiv.2503.14499 (2025).