Cientista impressionado com o último modelo ChatGPT o1
Os cientistas elogiam o novo modelo ChatGPT o1 da OpenAI por seus avanços impressionantes no apoio científico.

Cientista impressionado com o último modelo ChatGPT o1
Os pesquisadores que ajudaram a testar o novo modelo de linguagem grande da OpenAI, OpenAI o1, dizem que é um grande avanço em termos de Utilidade dos chatbots para a ciência representa.
“No meu campo da física quântica, há respostas significativamente mais detalhadas e coerentes” do que no modelo anterior, GPT-4o, diz Mario Krenn, chefe do Laboratório de Cientistas Artificiais do Instituto Max Planck de Física da Luz em Erlangen, Alemanha. Krenn fazia parte de um grupo de cientistas do ‘Red Team’ que testou a versão de pré-lançamento do o1 para a OpenAI, uma empresa de tecnologia com sede em São Francisco, Califórnia, testando o bot e verificando questões de segurança.
Desde o lançamento público do ChatGPT em 2022 Em média, os grandes modelos de linguagem que alimentam esses chatbots tornaram-se maiores e melhores, com mais parâmetros, maiores conjuntos de dados de treinamento e habilidades mais fortes em uma variedade de testes padronizados.
OpenAI explica que o série o1 representa uma mudança fundamental na abordagem da empresa. Os observadores relatam que este modelo de IA se destaca porque passou mais tempo em certas fases de aprendizagem e “pensa” mais nas suas respostas, tornando-o mais lento mas mais capaz – especialmente em áreas onde as respostas certas e erradas estão claramente definidas. A empresa acrescenta que o1 pode “pensar em tarefas complexas e resolver problemas mais difíceis do que os modelos anteriores em ciências, programação e matemática”. Atualmente, o1-preview e o1-mini — uma versão menor e mais econômica, adequada para programação — estão disponíveis para testes para clientes pagantes e determinados desenvolvedores. A empresa não publicou nenhuma informação sobre os parâmetros ou poder computacional dos modelos o1.
Alunos de pós-graduação com desempenho superior
André Branco, um químico da FutureHouse, uma organização sem fins lucrativos de São Francisco focada em como a IA pode ser aplicada à biologia molecular, diz que durante o último ano e meio, observadores desde o lançamento público do GPT-4, ficaram surpresos e desapontados com a falta geral de melhorias na forma como os chatbots apoiam tarefas científicas. A série o1, ele acredita, mudou isso.
Notavelmente, o1 é o primeiro grande modelo de linguagem a vencer os alunos de pós-graduação na questão mais difícil - o conjunto 'Diamante' - em um teste chamado Benchmark de perguntas e respostas do Google-Proof de nível de pós-graduação (GPQA). 1. A OpenAI afirma que seus pesquisadores pontuaram pouco menos de 70% no GPQA Diamond, enquanto o1 obteve 78% no geral, com uma pontuação particularmente alta de 93% em Física (veja “Próximo Nível”). Isso é “significativamente maior do que o próximo desempenho [do chatbot] melhor documentado”, diz David Rein, que fez parte da equipe que desenvolveu o GPQA. Rein atualmente trabalha na organização sem fins lucrativos Model Evaluation and Threat Research em Berkeley, Califórnia, que avalia os riscos da IA. “Parece-me plausível que isto represente uma melhoria significativa e fundamental nas capacidades centrais do modelo”, acrescenta.
A OpenAI também testou o1 em um exame de qualificação para a Olimpíada Internacional de Matemática. O melhor modelo anterior, GPT-4o, resolveu corretamente apenas 13% das tarefas, enquanto o1 obteve 83%.
Pensando em processos
OpenAI o1 funciona com uma cadeia de etapas de pensamento: ele fala por meio de uma série de considerações enquanto tenta resolver um problema, corrigindo-se à medida que avança.
A OpenAI optou por manter em segredo os detalhes de uma determinada cadeia de passos de pensamento – em parte porque a cadeia pode conter erros ou “pensamentos” socialmente inaceitáveis e em parte para proteger segredos corporativos sobre como o modelo funciona. Em vez disso, o1 oferece um resumo reconstruído de sua lógica para o usuário, juntamente com suas respostas. Não está claro, diz White, se a sequência completa dos passos do pensamento, se revelada, teria alguma semelhança com o pensamento humano.
As novas habilidades também têm suas desvantagens. A OpenAI relata que recebeu feedback anedótico de que os modelos o1 “alucinam” – inventam respostas falsas – com mais frequência do que seus antecessores (embora os testes internos da empresa para o1 tenham mostrado taxas de alucinação ligeiramente mais baixas).
Os cientistas do Red Team observaram inúmeras maneiras pelas quais o1 foi útil no desenvolvimento de protocolos para experimentos científicos, mas a OpenAI diz que os testadores também “destacaram a falta de informações de segurança sobre etapas prejudiciais, como não destacar riscos de explosão ou sugerir métodos de segurança química inadequados, indicando a inadequação do modelo quando se trata de tarefas críticas de segurança”.
“Ainda não é perfeito ou confiável o suficiente para não precisar de escrutínio”, diz White. Ele acrescenta que o1 é mais adequado para Principais especialistas como iniciantes. “Está além de sua capacidade imediata para um iniciante olhar para um log gerado por o1 e perceber que é um ‘absurdo’”, diz ele.
Solucionador de problemas científicos
Krenn acredita que o1 irá acelerar a ciência, ajudando a examinar a literatura, identificar lacunas e sugerir caminhos de pesquisa interessantes para estudos futuros. Ele integrou o1 em uma ferramenta que ajudou a desenvolver e que torna isso possível, chamada SciMuse 2. “Ele gera ideias muito mais interessantes do que o GPT-4 ou o GPT-4o”, diz ele.
Kyle Kabasares, cientista de dados do Bay Area Environmental Research Institute em Moffett Field, Califórnia, usei o1 para fazer alguns passos de programação de seu projeto de doutorado que calculou a massa dos buracos negros. “Fiquei simplesmente impressionado”, diz ele, observando que levou cerca de uma hora para realizar o que levou muitos meses.
Catherine Brownstein, geneticista do Hospital Infantil de Boston, em Massachusetts, diz que o hospital está atualmente testando vários sistemas de IA, incluindo o1-preview, para aplicações como a descoberta de conexões entre características dos pacientes e genes de doenças raras. Ela diz que o1 “é mais preciso e oferece opções que eu não achava que fossem possíveis em um chatbot”.
-
Rein, D. et al. Pré-impressão no arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).
-
Gu, X. & Krenn, M. Pré-impressão em arXiv https://doi.org/10.48550/arXiv.2405.17044 (2024).