Conversas sobre inteligência artificial sobre-humana (IA) aumentar. Mas a investigação revelou fraquezas num dos sistemas de IA mais bem sucedidos – um bot que joga o jogo de tabuleiro Go e pode vencer os melhores jogadores humanos do mundo – mostrando que tal superioridade pode ser frágil. O estudo levanta questões sobre se os sistemas de IA mais gerais poderiam ser vulneráveis ​​a vulnerabilidades que poderiam ameaçar a sua segurança e fiabilidade, e até mesmo a sua alegação de serem “sobre-humanos”.

“O artigo deixa um grande ponto de interrogação sobre como alcançar o ambicioso objetivo de construir agentes de IA robustos e reais nos quais as pessoas possam confiar”, diz Huan Zhang, cientista da computação da Universidade de Illinois Urbana-Champaign. Stephen Casper, cientista da computação do Instituto de Tecnologia de Massachusetts, em Cambridge, acrescenta: “Isso fornece algumas das evidências mais fortes de que é difícil implementar modelos avançados com a confiabilidade que se deseja”.

A análise em junho publicado on-line como uma pré-impressão 1e ainda não foi revisado por pares, usa os chamados ataques adversários - a entrada dos sistemas de IA que visam fazer com que os sistemas cometam erros, seja para fins de pesquisa ou para fins maliciosos. Por exemplo, certas entradas podem fazer o “jailbreak” dos chatbots, emitindo informações maliciosas que normalmente deveriam suprimir.

Em Go, dois jogadores se revezam colocando pedras pretas e brancas em uma grade para cercar e prender as pedras do outro jogador. Em 2022, pesquisadores relataram sobre treinando bots de IA adversários para derrotar KataGo 2, o melhor sistema de IA de código aberto para jogar Go que geralmente vence os melhores humanos com facilidade (e sem controle). Seus bots encontraram vulnerabilidades que derrotaram regularmente o KataGo, mesmo que os bots não fossem muito bons de outra forma - amadores humanos poderiam derrotá-los. Além disso, os humanos foram capazes de entender e usar os truques dos bots para derrotar o KataGo.

Exploração do KataGo

Foi um caso isolado ou este trabalho apontou para uma fraqueza fundamental no KataGo – e, por extensão, em outros sistemas de IA com habilidades aparentemente sobre-humanas? Para investigar isso, pesquisadores liderados por Adam Gleave, diretor executivo da FAR AI, uma organização de pesquisa sem fins lucrativos em Berkeley, Califórnia, e coautor do artigo de 2022, estão usando IA 2, bots adversários para testar três maneiras de defender IAs Go contra tais ataques 1.

A primeira defesa foi aquela que os desenvolvedores do KataGo já haviam utilizado após os ataques de 2022: dar ao KataGo exemplos de situações de jogo que estiveram envolvidas nos ataques e deixá-lo jogar para aprender como jogar contra essas situações. Isso é semelhante ao modo como geralmente é ensinado a jogar Go. No entanto, os autores do último artigo descobriram que um bot adversário aprendeu a vencer até mesmo esta versão atualizada do KataGo e venceu 91% das vezes.

A segunda estratégia defensiva que a equipe de Gleave tentou foi iterativa: treinar uma versão do KataGo contra bots adversários, depois treinar atacantes contra o KataGo atualizado e assim por diante, por nove rodadas. Mas mesmo isso não levou a uma versão invencível do KataGo. Os invasores continuaram a encontrar vulnerabilidades, com o ataque mais recente derrotando o KataGo em 81% das vezes.

Como terceira estratégia de defesa, os pesquisadores treinaram um novo sistema de IA para jogar Go do zero. KataGo é baseado em um modelo computacional conhecido como rede neural convolucional (CNN). Os investigadores suspeitaram que as CNNs poderiam concentrar-se demasiado em detalhes locais e perder padrões globais. Então eles construíram um player Go com uma alternativa rede neural chamado transformador de visão (ViT). Mas o bot adversário encontrou um novo ataque que o ajudou a vencer o sistema ViT 78% das vezes.

Oponentes fracos

Em todos estes casos, os bots adversários - embora capazes de derrotar o KataGo e outros sistemas líderes de jogo Go - foram treinados para descobrir vulnerabilidades ocultas em outras IAs, em vez de serem estrategistas completos. “Os adversários ainda estão bastante fracos – nós os vencemos com bastante facilidade”, diz Gleave.

E uma vez que os humanos são capazes de usar as táticas de bots adversários para derrotar as principais IAs Go, ainda faz sentido chamar esses sistemas de sobre-humanos? “Essa é uma ótima questão e com a qual definitivamente lutei”, diz Gleave. “Começamos a dizer ‘tipicamente sobre-humano’.” David Wu, um cientista da computação de Nova York que desenvolveu o KataGo, diz que IAs Go fortes são “sobre-humanas em média”, mas não “nos piores casos”.

Gleave diz que as descobertas podem ter implicações de longo alcance para os sistemas de IA, incluindo o grandes modelos de linguagem subjacentes a chatbots como ChatGPT. “A principal conclusão para a IA é que essas vulnerabilidades serão difíceis de resolver”, diz Gleave. “Se não conseguirmos resolver o problema em uma área simples como Go, então parece haver poucas perspectivas de resolver problemas semelhantes, como jailbreaks no ChatGPT, em um futuro próximo.”

O que os resultados significam para a possibilidade de criar uma IA que supere de forma abrangente as capacidades humanas é menos claro, diz Zhang. “Embora superficialmente isso sugira que os humanos possam reter importantes vantagens cognitivas sobre a IA por algum tempo”, diz ele, “acredito que o principal insight é que Ainda não entendemos completamente os sistemas de IA que estamos construindo hoje.”