Científicos impresionados por el último modelo de chatgpt O1

Científicos impresionados por el último modelo de chatgpt O1
Investigadores que ayudaron a probar el nuevo modelo de lenguaje grande desde Openai, OpenAi O1, dicen que es un gran paso en términos de El uso de chatbots para la ciencia representa.
"En mi área de física cuántica hay respuestas mucho más detalladas y más coherentes" que en el modelo anterior, GPT-4O, dice Mario Krenn, jefe del laboratorio científico artificial del Instituto Max Planck para la Física de la Luz en Erlangen, Alemania. Krenn pertenecía a un grupo de científicos en el 'Equipo Rojo', que probó la previa de la condena de O1 para OpenAI, una compañía de tecnología con sede en San Francisco, California, probando el bot y verificándolos sobre preocupaciones de seguridad.
Desde el público Introducción de la introducción pública de la introducción de Chatgipt en el chatgipto en el chatgipto. Modelos de lenguaje grandes que impulsan tales chatbots, en promedio, más y mejor, con más parámetros, conjuntos de datos de entrenamiento más grandes y Habilidades en una gran cantidad de pruebas estandarizadas .
OpenAai explica que
Exceder a los estudiantes de doctorado Andrew White, A Chemist Notable es el primer modelo de idioma importante que los estudiantes de doctorado en la pregunta más difícil, el "diamante" llamado a nivel de posgrado a prueba de preguntas y respuestas a prueba de preguntas y respuestas (GPQA) Beats 1 . Operai afirma que sus investigadores lograron casi el 70 % en el diamante GPQA, mientras que O1 alcanzó un total de 78 %, con un resultado particularmente alto del 93 % en física (ver "Next nivel"). Esto es "significativamente más alto que el siguiente rendimiento mejor documentado", dice David Rein, quien formó parte del equipo que desarrolló el GPQA. Actualmente, la evaluación del modelo de organización sin fines de lucro y la investigación de amenazas están funcionando en Berkeley, California, que se ocupa de la evaluación de los riesgos de la IA. "Me parece plausible que esto represente una mejora significativa y fundamental en las habilidades centrales del modelo", agrega. OpenAai también probó O1 durante una prueba de calificación para la Olimpiada Internacional de Matemáticas. El mejor modelo anterior, GPT-4O, solo resolvió el 13 % de las tareas correctamente, mientras que O1 alcanzó el 83 %. Piense en los procesos OpenAi O1 funciona con una cadena de pasos conmemorativos: habla a través de una serie de consideraciones mientras intenta resolver un problema y se corrige a sí mismo. OpenAai ha decidido mantener los detalles de una cadena de pensamiento dada, en parte porque la cadena podría contener errores o "pensamientos" socialmente no aceptables, y en parte para proteger los secretos corporativos sobre cómo funciona el modelo. En cambio, O1 ofrece un resumen reconstruido de su lógica para el usuario junto con sus respuestas. No está claro, según White, si la cadena mental completa, si se revelara, tendría similitudes con el pensamiento humano. Las nuevas habilidades también tienen sus lados oscuros. Openai informa que ha recibido comentarios anecdóticos de que los modelos O1 "alucinan" las falsas respuestas falsas, como sus predecesores (aunque las pruebas internas para O1 muestran tasas de alucinación ligeramente más bajas). Los científicos del equipo rojo han encontrado numerosas opciones sobre cómo O1 fue útil para desarrollar protocolos para experimentos científicos, pero OpenAai dice que los probadores también mostraron "la falta de información de seguridad en los pasos dañinos, como la no retirada de los riesgos de explosión o las sugerencias de inadecuado métodos de seguridad química, lo que indica la insuficiencia del modelo cuando se trata de tareas de seguridad. "Todavía no es lo suficientemente perfecto o confiable como para no tener que verificarse exactamente", dice White. Agrega que O1 es más adecuado para . "Para un principiante, está más allá de su capacidad inmediata para ver un protocolo generado por O1 y reconocer que no tiene sentido", dice. solucionador de problemas de la ciencia Krenn cree que O1 acelerará la ciencia al ayudar a escanear la literatura, reconocer brechas y proponiendo enfoques de investigación interesantes para futuros estudios. Integró O1 en una herramienta que ha desarrollado y que habilita esto llamado scimuse 2 . "Genera ideas mucho más interesantes que GPT-4 o GPT-4O", dice. Kyle Kabasares, científico de datos en el Instituto de Investigación Ambiental del Área de la Bahía en Moffett Field, California, Use O1 para replicar algunos pasos de programación de su proyecto de doctorado, que calculó la masa de agujeros negros. "Estaba abrumado", dice, notando que O1 necesitaba aproximadamente una hora para lograr lo que le costó durante muchos meses. Catherine Brownstein, genetista del Boston Children's Hospital en Massachusetts, dice que el hospital está probando actualmente varios sistemas de IA, incluida la vista previa de O1, para aplicaciones como descubrir relaciones entre las características del paciente y los genes para enfermedades raras. Ella dice que O1 "es más preciso y ofrece opciones que no pensé que fueran posibles de un bot de chat". rin, D. et al. Preimpresión en arxiv "> https://doi.org/10.48550/arxiv.2311.12022 (2023). Gu, X. & Krenn, M. Preprint en arxiv https://doi.org/10.48550/arxiv.2405.17044 (2024).