Home » El juego de rodear, la geopolítica y la inteligencia artificial

El juego de rodear, la geopolítica y la inteligencia artificial

El juego de rodear, la geopolítica y la inteligencia artificial

En los últimos meses dos comunidades aparentemente separadas comparten revuelo y sorpresa: la de los expertos en inteligencia artificial y la de los jugadores de go (ese “ajedrez de Oriente”, como lo llama Borges). Es que un programa de Google, llamado AlphaGo, le ha venido ganando incuestionablemente a los jugadores del más alto nivel. Sin embargo, el estudio del go en Occidente no es un juego, y su aplicación se reparte entre la estrategia militar, el diagnóstico médico y la comprensión de la manera de pensar y actuar de gobiernos como el chino.

Las leyendas sobre los orígenes del go (go es el nombre occidental, derivado de igo en japonés, weiqi en chino estándar y baduk en coreano) evocan al legendario emperador Yao (2300 a C), que, molesto por el comportamiento de su hijo Danzhu, pidió a Shun, uno de sus consejeros, que inventara un juego para enseñarle táctica, estrategia, equilibrio y concentración. El consejero inventó el go, juego que Danzhu poco apreció, por lo que su padre nombró a Shun como sucesor.

Al emperador Yao también se lo suele vincular con la organización del calendario y con la adivinación, práctica asociada a la agricultura. Para la predicción del clima y las cosechas solían usarse diagramas con fichas negras y blancas. Estos antecedentes sugieren una de las teorías más convincentes sobre el origen del juego: las discusiones e interpretaciones de los diagramas asociados a las tablas adivinatorias de las cosechas comenzaron a generar el “juego de rodear”.

A pesar de este origen pacífico, historiadores del go, como John Fairbairn, creen que los tableros de adivinación, los diagramas correspondientes y sobre ellos el juego incipiente fueron tomados por los generales como un escenario donde planeaban batallas reales en las que las fichas simulaban los soldados de un ejército, y también como un pasatiempo en el que imaginaban batallas ficticias. Pero no sólo de guerra se trata: el go impregna toda la cultura tradicional china, aparece en las ilustraciones, la pintura y la caligrafía, la educación, la formación de los funcionarios del imperio. Aparecen referencias al juego en tres de las cuatro grandes novelas clásicas chinas: Romance de los tres reinos, Viaje al oeste y Sueño en el pabellón rojo. En el período de la dinastía Tang (siglos VI-VIII) se sistematizan las cuatro artes requeridas para pertenecer a la casta aristocrática de académicos-caballeros, que proveía a los emperadores de sus funcionarios. Éstas eran: qin (la música), qi (el go), shu (la caligrafía) y hua (la pintura).

El go llegó tempranamente a Japón (en el 600) pero su apogeo se dio en el período Edo (1600-1868), cuando fue subsidiado por el gobierno. Este impulso, la flexibilización de las reglas de apertura y otros descubrimientos llevaron a la primacía absoluta del go japonés durante casi 400 años. En la actualidad ésta se ha perdido frente al ascenso de otros países, como China y Corea.

El go, la guerra y la estrategia. El go –su estudio, su estrategia, su simbología– fue pronto asociado con la acción militar; su surgimiento coincidió con cambios considerables en la tecnología de los armamentos. Con la forja masiva de armas individuales, los ejércitos pasaron a contar con numerosas fuerzas de infantería bien equipadas, mientras que anteriormente la guerra se basaba en combates entre carros manejados por aristócratas. Estos ejércitos numerosos de iguales, que maniobran para conquistar territorios, evocan los 361 discos que, cual soldados de infantería, combaten contra sus enemigos (e iguales) para establecer y/o conquistar bases en un territorio simbólico: el tablero de go.

El juego y la guerra aparecen asociados claramente en las obras de dos de los principales estrategas chinos: Tsun Tzu y Mao Zedong. En El arte de la guerra, de Tsun Tzu, y en Problemas de estrategia de la guerra de guerrillas contra Japón, de Mao, se comparten vocabulario y descripciones de estrategias en el terreno militar y en el tablero de juego.

Por otra parte, el primer tratado de go que se conoce, el Qijing Shisanpian (“El clásico del weiqi en 13 capítulos”, sería su traducción), de Zhang Ni (año 1050), tiene marcadas, y seguramente deliberadas, cercanías léxicas y estilísticas con El arte de la guerra. Las referencias de Mao Zedong al juego son bien explícitas, por ejemplo, cuando defiende la guerra de guerrillas: “Hay entonces dos formas de ser cercado por el enemigo y dos formas de cercarlo, en forma semejante a una partida de weiqi. Las campañas y las batallas libradas por ambos lados recuerdan la captura de las fichas del otro, y el establecimiento de bases por el enemigo y por la guerrilla recuerda las jugadas que se hacen para dominar espacios en el tablero”.

A partir del surgimiento de China como potencia global, los think tanks occidentales comenzaron a considerar el go en relación con la política estratégica de este país, y estiman que su estudio “es la llave para entender cόmo piensan realmente los chinos”. Varios analistas consideran que la manera de relacionarse del presidente chino con Donald Trump puede entenderse mejor a partir del juego de rodear y los preceptos de Tsun Tzu. Luego de los duros comentarios de Trump sobre China durante su campaña electoral se esperaba un fuerte enfrentamiento. Sin embargo, el presidente Xi Jinping parece haber aplicado el proverbio de Tsun Tzu, que también figura en los tratados de go: “El general más hábil no es el que pelea cien batallas y las gana todas, sino el que gana la guerra sin pelear ni una sola batalla”. El gobierno chino tomó calladamente dos medidas que cambiaron el ánimo del presidente estadounidense. Rechazó una flota de barcos norcoreanos que transportaba carbón: lo que implica un cambio de política en la región y conlleva beneficios importantes para las industrias del carbón estadounidenses, objeto de fuertes promesas electorales por parte de Trump. En paralelo, Xi hizo aprobar una patente demorada que abrió el mercado chino a una empresa de Trump.

Henry Kissinger, en On China (2011), desarrolló el tema de la relación central entre la política estratégica china y el juego de go. Kissinger repasa las relaciones de China con el mundo, llegando hasta el acercamiento entre China y Estados Unidos en 1972. En el texto insiste en lo que considera una diferencia conceptual fundamental, en términos de estrategia, entre la política china (“que enfatiza la sutileza, la astucia y la acumulación paciente de ventajas relativas”) y la del mundo occidental (“que enfatiza los choques decisivos de las fuerzas antagónicas”). Esto lo lleva a la comparación del go con el ajedrez. El primero se basa en las ganancias relativas y en una visión envolvente a largo plazo, que comienza a partir de un tablero vacío y termina cuando éste está “lleno de áreas interconectadas”. El ajedrez se basa en “batallas decisivas” que apuntan a una “victoria total” a partir del despliegue completo de las fuerzas enfrentadas. Kissinger llega a afirmar que la ignorancia de los preceptos de Tsun Tzu “tuvo un papel bien importante en las frustraciones estadounidenses en las guerras asiáticas recientes”, refiriéndose obviamente a la histórica derrota sufrida en Vietnam.

En Estados Unidos cada una de las cuatro grandes fuerzas militares alberga una institución universitaria donde se forma su elite. En estas universidades se desarrollan desde hace algunos años cursos de go que procuran ilustrar sobre sus aplicaciones al estudio de problemas estratégicos. El doctor Lai, profesor en una de esas universidades, en un artículo de 2004 titulado “Aprendiendo de las piedras: una aproximación a través del go para el manejo del concepto estratégico chino shi”, propone un nuevo acercamiento a la cultura china y al aprendizaje de las diferentes formas de pensamiento estratégico.

El juego no sólo despertó el interés de las fuerzas del capitalismo mundial y de las grandes potencias. Algunos grupos antisistémicos también creen haber encontrado en el go una herramienta para llevar adelante sus luchas políticas. En el portal libertario Oaca se sostiene: “El juego del go es (…) un juego estratégico donde los oponentes intentan expandir y mantener sus áreas de poder y usarlas para limitar las del otro. Podemos aprender de ello y aplicar estrategias del juego del go para adaptar nuestras luchas y hacerlas más efectivas”.

Si ante los conflictos intestinos del capitalismo contemporáneo algunos actores creyeron encontrar en el juego una herramienta para mejorar su posicionamiento global, es natural que hayan recurrido a las tecnologías más sofisticadas para mejorar su manejo de esta herramienta. Así, un nuevo actor aparece en escena, sonriente, dadivoso y bienhechor. Hace poco más de un año se hizo pública la existencia de un programa de inteligencia artificial (IA) llamado AlphaGo, que comenzó a competir con los mejores jugadores del mundo, triunfando en la casi totalidad de las partidas.

¿Sólo juegos de tablero? En octubre de 2015 la empresa Deep Mind Technology produjo los primeros resultados en un área en que la IA había tenido poco éxito: el juego del go. Luego de la aparición del trabajo “Mastering the game of go with deep neural networks and tree search” en la prestigiosa revista científica Nature, donde se explicaban algunos de los principios estructurales del programa AlphaGo, se hicieron públicas cinco partidas en las que dicho programa le ganó, por primera vez en la historia del juego, a un profesional de nivel intermedio.

Luego vino una avalancha de victorias del programa. En marzo de 2016 ganó cuatro partidas en un torneo de cinco contra el coreano Lee Sedol, uno de los más prestigiosos jugadores contemporáneos; en enero de 2017 el programa, jugando con el apodo de “Master”, apareció por unos días en un sitio chino de juegos en línea y le ganó 60 partidas a decenas de profesionales de primer nivel. En mayo de 2017 culminó (y concluyó) su carrera cuando le ganó tres partidas a Ke Jie, un jugador chino de 20 años que posee el mayor rango en las escalas internacionales. Luego de estos triunfos memorables, los dueños del programa anunciaron su retiro de las competencias de go.

La empresa Deep Mind Technology fue fundada en 2011 y comprada por Google en 2014 por 400 millones de libras. Su fundador y director ejecutivo, Demis Hassabis, podría ser el armador del dream team del tecnocapitalismo académico: niño prodigio, maestro de ajedrez a los 13 años y a los 17 diseñador de juegos masivamente exitosos. Posee títulos de grado y de doctorado en informática y neurociencia en las mejores universidades inglesas. El objetivo de la empresa es “Resolver la inteligencia. Usarla para hacer del mundo un lugar mejor”. En su página web declara: “Demasiados problemas han tenido un progreso dolorosamente lento, eso se debe a que su complejidad aplasta nuestra habilidad de resolverlos”, y menciona “desde los problemas del cambio climático hasta la necesidad de una mejora radical de los sistemas de cuidado de la salud”.

Evidentemente, como los desarrolladores de los programas lo dicen, las aplicaciones de la inteligencia artificial trascienden en mucho a los juegos de tablero y también a sus usos militares y estratégicos. Luego de la legitimación de la empresa con el abrumador éxito de AlphaGo, la herramienta quedó pronta para tareas de mayor jerarquía y rédito: las aplicaciones al diagnóstico médico, a la predicción del clima, a los problemas del uso de la energía y seguramente también a la guerra y la estrategia.
¿Ha cambiado el mundo? Ouyang Xiu (1007-1072), historiador, ensayista, calígrafo y poeta de la dinastía Song, escribió: “Termina la partida de go, pero no tenemos conciencia de que, durante ella, el mundo ha cambiado”.

Sin embargo, los programas de inteligencia artificial no dejan de ser algo así como máquinas, y las consideraciones de Karl Marx en 1867 se aplican casi al pie de la letra. En El Capital, Marx define una máquina como “un mecanismo que, luego de puesto en marcha, realiza con sus herramientas las mismas operaciones que anteriormente realizaba un obrero con herramientas semejantes”, y observa que la diferencia más notable entre el hombre y la máquina está “en (que) el número de herramientas que puede usar simultáneamente es desde el comienzo independiente de las limitaciones orgánicas que limitan las herramientas de un humano”.

En este caso, no se aspira a realizar un trabajo manual sino intelectual; no obstante estamos ante el mismo fenómeno referido por Marx. Y seguramente ante las mismas consecuencias.

El juego

El go se juega en un tablero de 19 líneas horizontales y 19 verticales (con 361 puntos de intersección), se usan 180 piedras blancas y 181 negras. En un tablero vacío, dos jugadores colocan alternadamente una ficha por vez en los “puntos”, intersecciones aún vacías. Se trata de rodear territorios; gana quien logra más puntos en sus territorios. Las fichas una vez colocadas no se mueven salvo cuando son totalmente rodeadas y retiradas del tablero (capturadas). La partida termina por acuerdo de ambos jugadores o cuando uno de ellos abandona. Se cuentan los puntos controlados por cada jugador y las fichas capturadas del oponente y así se determina el ganador. Raramente hay empate.

¿Cómo juega el programa AlphaGo?

En “La biblioteca de Babel”, Jorge Luis Borges se imagina alojados a todos los libros posibles de cierta extensión. En forma similar, un juego con una cantidad finita de jugadas posibles y que termine, puede representarse a través de un árbol que indexe todas las partidas posibles. Su raíz es la posición o nodo inicial del juego (en el ajedrez es el tablero con todas las piezas en sus lugares); cada nodo representa una posiciόn de tablero y cada rama entre dos nodos corresponde a la movida que permite pasar de una posición de tablero a la consecutiva en la partida. Las partidas son los caminos que recorren al árbol desde la raíz hasta las hojas (que son las posiciones de las partidas terminadas). En algunos juegos el árbol es gigantesco y recorrerlo sistemáticamente es imposible: en el ajedrez, el número de juegos posibles se estima en 10120, y en el go, para partidas de menos de 400 jugadas, sería de 10800 (el número de átomos del universo se estima en 1080).

Esta representación por medio de un árbol, al ser finita, permite establecer (teóricamente) la existencia de una mejor forma de jugar, así como la existencia de una partida ideal o perfecta, pero para eso se requiere conocer el árbol completo.

Para eso los programadores imitan el comportamiento humano, que elije entre todas las jugadas las que considera con más posibilidades de ser exitosas, y sólo para ellas estudian las jugadas futuras, recortando así el tamaño del árbol.

El recorte puede ser en profundidad (“truncado”) o en amplitud (“poda”). En el primer caso, para decidir la jugada a partir de una posición determinada se analizan sólo las siguientes s jugadas, truncando a las restantes, y a la última se le asigna un valor v(n) que indica la probabilidad de un resultado favorable a partir de ese momento si se jugara de forma perfecta.

En el caso de la poda se descartan ramas consideradas de poco valor, reduciéndose la amplitud del árbol en cada jugada. Es necesario dar valores p(a,n) que permitan elegir las jugadas a retener, donde a es una jugada legal a partir de la posiciόn n.

Para la poda, o sea el cálculo de p(a,n), se usa el “método Monte Carlo de búsqueda”, consistente en continuar la partida al azar a partir de a, y se usan los valores obtenidos en simulaciones previas para mejorar la elección de las jugadas. Este método, aunque es asintόticamente ideal, sólo había logrado en el go el nivel de un jugador amateur.
Mejoras de AlphaGo. El uso de redes neuronales en aprendizaje automático ha sido particularmente exitoso en dominios relacionados con el reconocimiento de patrones, como la clasificación de imágenes. Una red neuronal es un programa de aprendizaje automático en el que se simula la forma de comunicación de las neuronas. Un nodo, o “neurona”, recibe varios valores de entrada y en función de ellos devuelve un valor de salida. Los diferentes nodos se organizan en capas que tienen ciertos parámetros a ser determinados. La capa inicial recibe los datos externos, y en función de ellos, cada nodo de ésta manda su resultado a varios de los nodos de la siguiente, que a su vez los usa para dar valores a la siguiente y así sucesivamente. El resultado final, producido por la última capa, se utiliza como información para alterar el modo de cálculo de los diferentes nodos ajustando los parámetros al resultado deseado (fase de entrenamiento). Una vez culminada esta fase, se espera que ante el ingreso de los datos del problema, la capa final produzca el resultado deseado.

A pesar de su gran utilidad, en teoría de juegos (hasta la creación de AlphaGo) el desempeño de esta técnica era pobre. La innovación presentada en AlphaGo consiste (además de un mejor diseño de las redes neuronales) en la combinación del uso de redes neuronales y el método Monte Carlo para definir v(n) y p(a,n).

Como el código del programa no es público, para describir AlphaGo nos atendremos a lo expuesto en la publicación mencionada, donde se explica que usando datos de más de 30 millones de posiciones a partir de partidas jugadas por humanos se construyó una primera red neuronal que se entrenó para que, dada una posición n, predijera un valor inicial de p(a,n). Esta etapa se denomina de entrenamiento supervisado, pues se busca predecir qué haría un experto (humano) a partir de los datos reales. Luego, usando como entrada los datos producidos anteriormente, se entrenó una segunda red neuronal (de entrenamiento reforzado) para predecir el resultado final de la partida a partir de la jugada seleccionada: se hace jugar al programa en su estado actual contra versiones previas, obteniendo una nueva versión de la función p(a,n); se repite este proceso hasta obtener un valor que se considere razonable. En una última etapa, se utiliza una tercera red neuronal que, basándose en los valores de p(a,n), predice el resultado del partido si se juega a. Es decir, se calcula v(n).

Durante una partida, AlphaGo realiza búsquedas en el árbol del juego usando un método de tipo Monte Carlo guiado por las redes mencionadas, y esto mejora la fiabilidad de las funciones p(a,n) y v(n) a lo largo de las partidas.

Información adicional

Autor/a: Walter Ferrer y Álvaro Rittatore
País:
Región:
Fuente: Brecha

Leave a Reply

Your email address will not be published.