Ai pode ser sobre -humana? Defeitos no melhor jogador BOT levanta dúvidas

Ai pode ser sobre -humana? Defeitos no melhor jogador BOT levanta dúvidas
"O artigo deixa um grande ponto de interrogação sobre como o objetivo ambicioso pode ser alcançado para criar agentes robustos de IA do mundo real em que as pessoas podem confiar", diz Huan Zhang, cientista da computação da Universidade de Illinois Urbana-Campay. Stephen Casper, cientista da computação do Instituto de Tecnologia de Massachusetts, em Cambridge, acrescenta: "Até agora, ele tem fornecido algumas das evidências mais fortes de que é difícil implementar modelos avançados tão confiáveis quanto você quiser".
A análise que em junho "Click" Data-Action = "Anchor-Link" Data-Track label = "Go to the reference" Data Track-Category = "Sources"> 1 and has not yet been peer-reviewed uses the AI systems Entries colocar que visam tentar os sistemas a erros , seja para fins de pesquisa ou para fins maliciosos. Por exemplo, certas entradas podem 'jailbreaks' Chatbots emitindo informações prejudiciais que você normalmente deve suprimir.
Quando você vai, dois jogadores colocam as pedras pretas e brancas em uma grade para cercar e capturar as pedras do outro jogador. Em 2022, os pesquisadores relataram sobre Detido por KATAGO < = "Clique em" Data Action = "Anchor-Link" Track Label = "Vá para a referência" Categoria de trilha de dados = "Capacos de origem (e sem mão). Seus bots encontraram fraquezas que derrotassem regularmente Katago, embora os bots não fossem muito bons - amadores humanos eram capazes de derrotá -los. Além disso, as pessoas foram capazes de entender e aplicar os truques dos bots para derrotar Katago.
Exploração de Katago
Isso foi uma coisa única, ou esse trabalho apontou uma fraqueza fundamental em Katago-e, em expansão, para outros sistemas de IA com habilidades aparentemente sobre-humanas? Para investigar isso, os pesquisadores sob a direção de Adam Gleave, diretor administrativo da Far AI, uma organização de pesquisa sem fins lucrativos em Berkeley, Califórnia e co-autora dos papéis de 2022
A primeira defesa foi uma que os desenvolvedores da Katago já haviam usado após os ataques de 2022: os exemplos de Katago de situações de jogo que estavam envolvidos nos ataques e deixam -o jogar para aprender a jogar contra essas situações. Isso é semelhante ao que geralmente ensinava a chance. No entanto, os autores dos últimos artigos descobriram que uma oferta adversária aprendeu a vencer esta versão atualizada do Katago e venceu 91 % das vezes.
A segunda estratégia de defesa que a equipe de Gleave tentou foi iterativa: treinar uma versão do Katago contra os robôs Adversarielle e depois treinar atacantes contra o Katago atualizado e assim por diante. Mas isso também não levou a uma versão invencível do Katago. Os atacantes continuaram a encontrar fraquezas, com o último ataque que Katago derrotou 81 % das vezes.
Como a terceira estratégia de defesa, os pesquisadores treinaram um novo sistema de IA de jogo a partir do zero. Katago é baseado em um modelo de cálculo conhecido como Rede Neural Convolucional (CNN). Os pesquisadores suspeitavam que os CNNs pudessem se concentrar demais nos detalhes locais e ignorar os padrões globais. Portanto, eles construíram um jogador GO com uma alternativa
oponente fraco
Em todos esses casos, os BOTs adversários-embora eles pudessem vencer o Katago e outros sistemas de jogo líder foram treinados para descobrir fraquezas ocultas em outros AIS, e não ser estrategistas versáteis. "Os oponentes ainda são bastante fracos - nós os derrotamos com bastante facilidade", diz Gleave.
E como as pessoas são capazes de usar as táticas dos robôs adversários para derrotar os principais governos, faz sentido chamar esses sistemas sobre-humano? "Esta é uma ótima pergunta com a qual eu definitivamente lutei", diz Gleave. "Começamos a dizer" tipicamente sobre -humano "." David Wu, um cientista da computação em Nova York, que desenvolveu Katago pela primeira vez, diz que os kis fortes são "em média sobre-humano", mas não "nos piores casos".
Gleave says that the results could have far-reaching effects on AI systems, including the grandes modelos de idiomas baseados em chatbots como chatgpt . "A descoberta mais importante para a IA é que esses pontos fracos serão difíceis de eliminar", diz Gleave. "Se não podemos resolver o problema em uma área simples como o Go, parece haver pouca perspectiva no futuro próximo de resolver problemas semelhantes, como jailbreaks in Chatt".
O que os resultados significam para a possibilidade de criar uma IA que exceda extensivamente as habilidades humanas é menos clara, diz Zhang. "Embora isso indique superficialmente que as pessoas ainda podem manter importantes vantagens cognitivas sobre a IA", diz ele, "acho que o conhecimento crucial é que ainda não entendemos completamente os sistemas de IA que construímos hoje "
- >
- >>
Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint at Arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
- >>
Wang, T. T. et al. pré-impressão em arxiv .