¿Puede Ai ser sobrehumano? Defectos en el jugador superior Bot plantea dudas

Forschung zeigt, dass selbst Superintelligenzen im Go-Spiel anfällig sind. Erfahren Sie, wie KI-Systeme wie KataGo gegen Angriffe kämpfen und welche Auswirkungen dies auf die Entwicklung von KI-Systemen haben könnte.
La investigación muestra que incluso la superinteligencia en el juego Go es susceptible. Descubra cómo los sistemas de IA como Katago luchan contra los ataques y qué efectos podría tener esto en el desarrollo de los sistemas de IA. (Symbolbild/natur.wiki)

¿Puede Ai ser sobrehumano? Defectos en el jugador superior Bot plantea dudas

habla sobre INTELIGENCIA Artificial Exesivo (KI) Sin embargo, los resultados de la investigación han destacado en uno. Los jugadores humanos en el mundo, que muestra que tal superioridad puede ser frágil.

"El documento deja un gran signo de interrogación sobre cómo se puede lograr el ambicioso objetivo para construir agentes de IA robustos del mundo real en el que la gente pueda confiar", dice Huan Zhang, informática de la Universidad de Illinois Urbana-Champay. Stephen Casper, un científico informático del Instituto de Tecnología de Massachusetts en Cambridge, agrega: "Hasta ahora, ha estado proporcionando algunas de las pruebas más fuertes de que es difícil implementar modelos avanzados de manera tan confiable como desee".

El análisis de que en junio <1S> <1S> 1 y aún no ha sido revisado por pares usa las entradas de sistemas AI lugar que tiene como objetivo tentar a los sistemas a errores , ya sea para fines de investigación o para fines maliciosos. Por ejemplo, ciertas entradas pueden 'jailbreaks' chatbots emitiendo información nociva que normalmente debe suprimir.

Cuando la marcha, dos jugadores colocan alternativamente piedras en blanco y negro en una cuadrícula para rodear y capturar las piedras del otro jugador. En 2022, los investigadores informaron sobre derrotado por katago 2 1 .

La primera defensa fue una que los desarrolladores de Katago ya habían usado después de los ataques de 2022: Katago Ejemplos de situaciones de juego que estaban involucradas en los ataques y dejaron que jugara para aprender a jugar contra estas situaciones. Esto es similar a eso, ya que generalmente enseñaba el GO. Sin embargo, los autores de los últimos documentos descubrieron que una oferta adversaria aprendió a superar esta versión actualizada de Katago y ganó el 91 % del tiempo.

La segunda estrategia de defensa que intentó el equipo de Gleave fue iterativo: entrenar una versión de Katago contra los bots de Adversarielle, luego entrenar a los atacantes contra el Katago actualizado, etc. durante nueve rondas. Pero eso tampoco condujo a una versión invencible de Katago. Los atacantes continuaron encontrando debilidades, con el último ataque que Katago derrotó al 81 % del tiempo.

Como la tercera estrategia de defensa, los investigadores capacitaron a un nuevo sistema de inteligencia artificial de GO desde cero. Katago se basa en un modelo de cálculo conocido como la red neuronal convolucional (CNN). Los investigadores sospecharon que CNNS podría concentrarse demasiado en los detalles locales y pasar por alto los patrones globales. Por lo tanto, construyeron un jugador GO con una alternativa

Y dado que las personas pueden usar las tácticas de los bots adversos para derrotar a los principales go-kis, ¿tiene sentido llamar a estos sistemas sobrehumanos? "Esta es una gran pregunta con la que definitivamente luché", dice Gleave. "Hemos comenzado a decir" típicamente sobrehumano ". David Wu, un científico informático en Nueva York, que desarrolló por primera vez Katago, dice que los fuertes go-kis son "en promedio sobrehumano", pero no "en los peores casos".

Gleaave dice que los resultados podrían tener efectos de gran alcance en los sistemas de IA, incluido el Modelos de idiomas grandes que se basan en chatbots como chatgpt . "El hallazgo más importante para la IA es que estos puntos débiles serán difíciles de eliminar", dice Gleave. "Si no podemos resolver el problema en un área simple como Go, entonces parece haber pocas perspectivas en el futuro cercano de resolver problemas similares como los jailbreaks en Chatt".

Lo que significan los resultados para la posibilidad de crear una IA que exceda ampliamente las habilidades humanas es menos claro, dice Zhang. "Aunque esto indica superficialmente que las personas aún pueden mantener importantes ventajas cognitivas sobre la IA", dice, "creo que el conocimiento crucial es que Todavía no entendemos completamente los sistemas AI que construimos hoy .

  1. tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleeave, A. Preprint en arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).

  2. wang, T. T. et al. Preimpresión en ARXIV https://doi.org/10.48550/arxiv.2211.00241 .

  3. download sources