Científico impresionado por el último modelo ChatGPT o1
Los científicos elogian el nuevo modelo ChatGPT o1 de OpenAI por sus impresionantes avances en apoyo científico.

Científico impresionado por el último modelo ChatGPT o1
Los investigadores que ayudaron a probar el nuevo modelo de lenguaje grande de OpenAI, OpenAI o1, dicen que es un gran paso adelante en términos de Utilidad de los chatbots para la ciencia representa.
"En mi campo de la física cuántica, hay respuestas mucho más detalladas y coherentes" que con el modelo anterior, GPT-4o, afirma Mario Krenn, jefe del Laboratorio de Científicos Artificiales del Instituto Max Planck de Física de la Luz en Erlangen, Alemania. Krenn formó parte de un grupo de científicos del 'Equipo Rojo' que probó la versión preliminar de o1 para OpenAI, una empresa de tecnología con sede en San Francisco, California, poniendo a prueba el robot y comprobando problemas de seguridad.
Desde el lanzamiento público de ChatGPT en 2022 En promedio, los grandes modelos de lenguaje que impulsan dichos chatbots se han vuelto más grandes y mejores, con más parámetros, conjuntos de datos de entrenamiento más grandes y Habilidades más sólidas en una variedad de pruebas estandarizadas..
OpenAI explica que el serie o1 representa un cambio fundamental en el enfoque de la empresa. Los observadores informan que este modelo de IA se destaca porque ha pasado más tiempo en ciertas fases de aprendizaje y “piensa” más en sus respuestas, lo que lo hace más lento pero más capaz, especialmente en áreas donde las respuestas correctas e incorrectas están claramente definidas. La empresa añade que o1 puede "pensar en tareas complejas y resolver problemas más difíciles que los modelos anteriores en ciencia, programación y matemáticas". Actualmente, o1-preview y o1-mini, una versión más pequeña y rentable adecuada para programación, están disponibles en fase de prueba para clientes que pagan y ciertos desarrolladores. La empresa no ha publicado ninguna información sobre los parámetros o la potencia informática de los modelos o1.
Estudiantes de posgrado con mejor desempeño
Andrés Blanco, un químico en FutureHouse, una organización sin fines de lucro de San Francisco centrada en cómo se puede aplicar la IA a la biología molecular, dice que durante el último año y medio, los observadores desde el lanzamiento público de GPT-4, se sorprendieron y decepcionaron por la falta general de mejora en la forma en que los chatbots apoyan las tareas científicas. Él cree que la serie o1 ha cambiado esto.
Sorprendentemente, o1 es el primer modelo de lenguaje importante que vence a los estudiantes de posgrado en la pregunta más difícil, el conjunto "Diamante", en una prueba llamada Graduate-Level Google-Proof Q&A Benchmark (GPQA). 1. OpenAI dice que sus investigadores obtuvieron una puntuación de poco menos del 70% en GPQA Diamond, mientras que o1 obtuvo una puntuación del 78% en general, con una puntuación particularmente alta del 93% en Física (ver “Siguiente nivel”). Eso es "significativamente más alto que el siguiente desempeño [de chatbot] mejor documentado", dice David Rein, quien formó parte del equipo que desarrolló la GPQA. Rein trabaja actualmente en la organización sin fines de lucro Model Evaluación and Threat Research en Berkeley, California, que evalúa los riesgos de la IA. "Me parece plausible que esto represente una mejora significativa y fundamental en las capacidades centrales del modelo", añade.
OpenAI también probó o1 en un examen de clasificación para la Olimpiada Internacional de Matemáticas. El mejor modelo anterior, GPT-4o, resolvió correctamente sólo el 13% de las tareas, mientras que o1 obtuvo una puntuación del 83%.
Pensando en procesos
OpenAI o1 funciona con una cadena de pasos de pensamiento: se explica a sí mismo una serie de consideraciones mientras intenta resolver un problema, corrigiéndose a medida que avanza.
OpenAI ha optado por mantener en secreto los detalles de una determinada cadena de pasos de pensamiento, en parte porque la cadena podría contener errores o “pensamientos” socialmente inaceptables y en parte para proteger los secretos corporativos sobre cómo funciona el modelo. En cambio, o1 ofrece un resumen reconstruido de su lógica para el usuario, junto con sus respuestas. No está claro, dice White, si la secuencia completa de pasos del pensamiento, si se revela, tendría alguna similitud con el pensamiento humano.
Las nuevas habilidades también tienen sus desventajas. OpenAI informa que ha recibido comentarios anecdóticos de que los modelos o1 "alucinan" (inventan respuestas falsas) con más frecuencia que sus predecesores (aunque las pruebas internas de la compañía para o1 mostraron tasas de alucinaciones ligeramente más bajas).
Los científicos del Red Team observaron numerosas formas en las que o1 fue útil en el desarrollo de protocolos para experimentos científicos, pero OpenAI dice que los evaluadores también "destacaron una falta de información de seguridad sobre pasos dañinos, como no resaltar los peligros de explosión o sugerir métodos de seguridad química inapropiados, lo que indica la insuficiencia del modelo cuando se trata de tareas críticas para la seguridad".
"Todavía no es lo suficientemente perfecto ni confiable como para no necesitar un escrutinio", dice White. Añade que o1 se adapta mejor a Expertos líderes como principiantes. "Está más allá de su capacidad inmediata que un principiante mire un registro generado por o1 y se dé cuenta de que es una 'tontería'", dice.
solucionador de problemas científicos
Krenn cree que o1 acelerará la ciencia al ayudar a escanear la literatura, identificar lagunas y sugerir vías de investigación interesantes para estudios futuros. Integró o1 en una herramienta que ayudó a desarrollar y que lo hace posible, llamada SciMuse. 2. "Genera ideas mucho más interesantes que GPT-4 o GPT-4o", afirma.
Kyle Kabasares, científico de datos del Instituto de Investigación Ambiental del Área de la Bahía en Moffett Field, California, Usé o1 para hacer algunos pasos de programación. de su proyecto doctoral que calculó la masa de los agujeros negros. “Me quedé impresionado”, dice, señalando que le tomó alrededor de una hora lograr lo que le llevó muchos meses.
Catherine Brownstein, genetista del Boston Children's Hospital en Massachusetts, dice que el hospital está probando actualmente varios sistemas de inteligencia artificial, incluido o1-preview, para aplicaciones como descubrir conexiones entre las características de los pacientes y genes de enfermedades raras. Ella dice que o1 "es más preciso y ofrece opciones que no pensé que fueran posibles desde un chatbot".
-
Rein, D. y col. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. y Krenn, M. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).