Os cientistas impressionados com o mais recente modelo ChatGPT O1

Os cientistas impressionados com o mais recente modelo ChatGPT O1
Pesquisadores que ajudaram a testar o novo modelo de idioma grande do OpenAI, Openai O1, dizem que é um grande passo em termos de uso de chatbots para ciência Representa.
"Na minha área de física quântica, existem respostas muito mais detalhadas e mais coerentes" do que no modelo anterior, GPT-4O, diz Mario Krenn, chefe do laboratório de cientistas artificiais do Instituto Max Planck para a física da luz em Erlangen, Alemanha. Krenn pertencia a um grupo de cientistas da 'equipe vermelha', que testou a pré -datada da O1 para o Openai, uma empresa de tecnologia com sede em São Francisco, Califórnia, experimentando o bot e verificando -os sobre preocupações de segurança.
Desde Habilidades em um grande número de testes padronizados
OpenAai explica que o excede os estudantes de doutorado Andrew White, A Publicação pública de GPT-4 , foram surpreendidos e decepcionados por uma falta geral de melhorias no suporte de tarefas científicas
notável é O1 O primeiro modelo de idioma importante que os estudantes de doutorado na pergunta mais difícil-o 'diamante' chamados de perguntas e respostas à prova de pós-graduação no Google (GPQA) bate
OpenAai também testou O1 durante um teste de qualificação para a Olimpíada de Matemática Internacional. O melhor modelo anterior, GPT-4O, resolveu apenas 13 % das tarefas corretamente, enquanto o O1 alcançou 83 %. pense em processos Openai O1 funciona com uma cadeia de etapas memoriais: fala através de várias considerações enquanto tenta resolver um problema e se corrigir. O OpenAai decidiu manter os detalhes de uma determinada cadeia de pensamentos - em parte porque a cadeia poderia conter erros ou "pensamentos" socialmente não aceitáveis e em parte para proteger os segredos corporativos sobre como o modelo funciona. Em vez disso, O1 oferece um resumo reconstruído de sua lógica para o usuário junto com suas respostas. Não está claro, de acordo com White, seja a cadeia de mentes completa, se fosse revelada, teria semelhanças com o pensamento humano. As novas habilidades também têm seus lados escuros. O OpenAI relata que recebeu um feedback anedótico de que o O1 modela "alucinando" com mais frequência as respostas falsas-como seus antecessores (embora os testes internos para O1 mostrem taxas de alucinação ligeiramente mais baixas). Os cientistas da equipe vermelha encontraram inúmeras opções de como o O1 foi útil no desenvolvimento de protocolos para experimentos científicos, mas o OpenAai diz que os testadores também mostraram “falta de informações de segurança sobre etapas prejudiciais, como a não-recompensa de riscos de explosão ou as sugestões de segurança química, que indicam a inadequação de modelos. "Ainda não é perfeito ou confiável o suficiente para não ter que ser verificado exatamente", diz White. Ele acrescenta que O1 é mais adequado para . "Para um iniciante, está além de sua capacidade imediata de olhar para um protocolo gerado pela O1 e reconhecer que é" absurdo "", diz ele. solucionador de problemas da ciência Krenn acredita que a O1 acelerará a ciência, ajudando a digitalizar a literatura, reconhecendo lacunas e propondo abordagens interessantes de pesquisa para estudos futuros. Ele integrou o O1 em uma ferramenta que ele desenvolveu e que permite isso chamado scimuse 2 . "Isso gera idéias muito mais interessantes que o GPT-4 ou o GPT-4O", diz ele. Kyle Kabasares, a data scientist at the Bay Area Environmental Research Institute in Moffett Field, California, Use O1 para replicar algumas etapas de programação de seu projeto de doutorado, que calculou a massa de orifícios negros. "Fiquei impressionado", diz ele, percebendo que a O1 precisava de cerca de uma hora para alcançar o que lhe custou por muitos meses. Catherine Brownstein, geneticista do Hospital Infantil de Boston, em Massachusetts, diz que o hospital está atualmente testando vários sistemas de IA, incluindo pré -visualização de O1, para aplicações como descobrir relações entre características do paciente e genes para doenças raras. Ela diz que a O1 "é mais precisa e oferece opções que eu não achava que elas fossem possíveis de um bot de bate -papo".