Comprensión de la visión de RL

Con diversos entornos, podemos analizar, diagnosticar y editar modelos de aprendizaje por refuerzo profundo mediante la atribución.

Interfaz de usuario gráfica

Descripción generada automáticamente con confianza baja

Atribución de una capa oculta a la función de valor, que muestra qué características de la observación (izquierda) se utilizan para predecir el éxito (medio) y el fracaso (derecha). La aplicación de reducción de dimensionalidad (NMF) produce funciones que detectan varios objetos en el juego.

Aprendizaje profundo por refuerzo

El Aprendizaje profundo por refuerzo o Deep Reinforcement Learning, es uno de los campos de investigación más prometedores en el mundo de la Inteligencia Artificial.

¿Qué es el aprendizaje profundo por refuerzo?

Es una nueva generación de las técnicas de aprendizaje automático (Machine Learning), que se caracteriza por un paso más a la evolución de la forma en que la maquina aprende a realizar una tarea.

Los sistemas de aprendizaje por refuerzo exploran y adquieren datos sobre el problema por propia iniciativa, diseñando automáticamente estrategias que le den solución.

¿Cómo funciona el aprendizaje profundo por refuerzo?

Un sistema de aprendizaje profundo por refuerzo está conformado por una máquina o agente inteligente que aprende a optimizar un proceso de decisión.

Es similar a cuando entrenas a un perro en donde le enseñas hacer las acciones por medio de recompensas o castigos.

· Agente: El alumno y el que toma las decisiones

· Entorno (Medio Ambiente): Donde el agente aprende y decide que acciones realizar

· Acción: Un conjunto de acciones que el agente puede realizar

· Estado: El estado de agente en el entorno

· Recompensa: Por cada acción seleccionada por el agente, el entorno proporciona una recompensa. Por lo general, un valor escalar.

Conceptos de inteligencia artificial: qué es el aprendizaje por refuerzo

¿Cómo aprende una maquina?

Para que la maquina aprenda, el agente interactúa con un entorno, que puede ser el proceso de decisión real o una simulación del mismo. El agente trabaja observando el entorno, y tomando una decisión para comprobar que efectos produce.

Si el resultado de esa decisión es beneficioso, el agente aprende automáticamente a repetir esa decisión en el futuro, mientras que si el resultado fuera perjudicial evitará volver a tomar la misma decisión.

Escala de tiempo

Descripción generada automáticamente

De este modo, siguiendo un proceso de aprendizaje por condicionamiento similar al de los seres vivos, el agente aprende qué decisiones son más adecuadas según la situación, y desarrolla estrategias a largo plazo que maximicen los beneficios.

El cerebro o la capacidad de aprendizaje del agente viene dada por un modelo de Deep Learning o red neuronal profunda. Esto permite explotar todos los avances recientes en redes neuronales artificiales, pudiendo así tratar con problemas que requieran analizar datos no estructurados como imágenes, sonidos o lenguaje natural.

En este artículo, aplicamos técnicas de interpretabilidad a un modelo de aprendizaje por refuerzo (RL) entrenado para jugar al videojuego CoinRun. Utilizando la atribución combinada con la reducción de dimensionalidad como en, creamos una interfaz para explorar los objetos detectados por el modelo y cómo influyen en su función y política de valor. Aprovechamos esta interfaz de varias formas.

· Disección del fracaso. Realizamos un análisis paso a paso del comportamiento del agente en los casos en los que no logró la recompensa máxima, lo que nos permite comprender qué salió mal y por qué. Por ejemplo, un caso de falla fue causado por un obstáculo que se ocultó temporalmente de la vista.

· Alucinaciones. Encontramos situaciones en las que el modelo "alucinó" una característica que no estaba presente en la observación, lo que explica inexactitudes en la función de valor del modelo. Fueron lo suficientemente breves como para no afectar el comportamiento del agente.

· Edición de modelos. Editamos manualmente los pesos del modelo para cegar al agente a ciertos peligros, sin cambiar el comportamiento del agente. Verificamos los efectos de estas ediciones comprobando qué peligros hacen que fallen los nuevos agentes. Dicha edición solo es posible gracias a nuestro análisis anterior y, por lo tanto, proporciona una validación cuantitativa de este análisis.

Nuestros resultados dependen de que los niveles en CoinRun se generen procedimentalmente, lo que nos lleva a formular una hipótesis de diversidad para la interpretabilidad. Si es correcto, entonces podemos esperar que los modelos RL se vuelvan más interpretables a medida que los entornos en los que se entrenan se vuelven más diversos. Proporcionamos evidencia para nuestra hipótesis midiendo la relación entre interpretabilidad y generalización.

Finalmente, proporcionamos una investigación exhaustiva de varias técnicas de interpretabilidad en el contexto de la visión de RL y planteamos una serie de preguntas para futuras investigaciones.

Nuestro modelo CoinRun

CoinRun es un juego de plataformas de desplazamiento lateral en el que el agente debe esquivar enemigos y otras trampas y recoger la moneda al final del nivel.

Imagen que contiene Interfaz de usuario gráfica

Descripción generada automáticamente

Nuestro modelo entrenado jugando CoinRun. Izquierda: resolución completa. Derecha: observaciones de 64x64 RGB proporcionadas al modelo.

CoinRun se genera por procedimientos, lo que significa que cada nuevo nivel encontrado por el agente se genera aleatoriamente desde cero. Esto incentiva al modelo a aprender cómo detectar los diferentes tipos de objetos en el juego, ya que no puede salirse con la suya simplemente memorizando una pequeña cantidad de trayectorias específicas. Usamos la versión original de CoinRun, no la versión de Procgen Benchmark, que es ligeramente diferente. Para jugar CoinRun usted mismo, siga las instrucciones.

A continuación, se muestran algunos ejemplos de los objetos que se utilizan, junto con las paredes y los suelos, para generar niveles CoinRun.

Calendario

Descripción generada automáticamente

I. El agente, en el aire (izquierda) y a punto de saltar (derecha). El agente también aparece en beige, azul y verde.

II. Monedas, que hay que recoger.

III. Obstáculos estacionarios de sierra circular, que deben ser esquivados.

IV. Enemigos, que deben ser esquivados, moviéndose de izquierda a derecha. Hay varios sprites alternativos, todos con senderos blancos.

V. Cajas, sobre las que el agente puede pasar y aterrizar encima.

VI. Lava en el fondo de un abismo.

VII. La información de velocidad pintada en la parte superior izquierda de cada observación, que indica las velocidades horizontal y vertical del agente.

Hay 9 acciones disponibles para el agente en CoinRun:

La izquierda y la derecha cambian la velocidad horizontal del agente. Todavía funcionan mientras el agente está en el aire, pero su efecto es menor.

Abajo cancela un salto si se usa inmediatamente después de subir y baja al agente de las casillas.

Arriba hace que el agente salte después de la siguiente acción no activa. Las direcciones diagonales tienen el mismo efecto que las direcciones de ambas componentes combinadas.

A, B y C no hacen nada

Red neuronal convolucional

Las Redes neuronales convolucionales son un tipo de redes neuronales artificiales donde las neuronas corresponden a campos receptivos de una manera muy similar a las neuronas en la corteza visual primaria (V1) de un cerebro biológico. Este tipo de red es una variación de un perceptrón multicapa, sin embargo, debido a que su aplicación es realizada en matrices bidimensionales, son muy efectivas para tareas de visión artificial, como en la clasificación y segmentación de imágenes, entre otras aplicaciones.

Cómo están construidas y cómo funcionan

Las redes neuronales convolucionales consisten en múltiples capas de filtros convolucionales de una o más dimensiones. Después de cada capa, por lo general se añade una función para realizar un mapeo causal no-lineal.

Como cualquier red empleada para clasificación, al principio estas redes tienen una fase de extracción de características, compuesta de neuronas convolucionales , luego hay una reducción por muestreo y al final tendremos neuronas de perceptrón más sencillas para realizar la clasificación final sobre las características extraídas.

La fase de extracción de características se asemeja al proceso estimulante en las células de la corteza visual. Esta fase se compone de capas alternas de neuronas convolucionales y neuronas de reducción de muestreo. Según progresan los datos a lo largo de esta fase, se disminuye su dimensionalidad, siendo las neuronas en capas lejanas mucho menos sensibles a perturbaciones en los datos de entrada, pero al mismo tiempo siendo estas activadas por características cada vez más complejas.

Como se logra que una red convolucional aprenda

Las Redes neuronales Convolucionales, CNN aprenden a reconocer una diversidad de objetos dentro de imágenes, pero para ello necesitan entrenarse de previo con una cantidad importante de muestras más de 10.000, de ésta forma las neuronas de la red van a poder captar las características únicas -de cada objeto- y a su vez, poder generalizarlo a esto es lo que se le conoce como el proceso de aprendizaje de un algoritmo . Nuestra red va a poder reconocer por ejemplo un cierto tipo de célula porque ya la ha visto anteriormente muchas veces, pero no solo buscará celulas semejantes, sino que podra inferir imagenes que no conozca pero que relaciona y en donde podrían existir similitudes, y esta es la parte inteligente del reconociminto

Texto, Carta

Descripción generada automáticamente

Pixeles y neuronas

Para comenzar, la red toma como entrada los pixeles de una imagen. Si tenemos una imagen con apenas 28×28 pixeles de alto y ancho, esTo equivale a utilizar 784 neuronas. Y eso es si sólo tenemos 1 color (escala de grises). Si tuviéramos una imagen a color, necesitaríamos 3 canales RGB (red, green, blue) y entonces usaríamos 28x28x3 = 2352 neuronas. Estas neuronas constituyen nuestra capa de entrada.

Convoluciones

Ahora comienza el «procesado distintivo» de las Redes neuronales convolucionales, es decir, haremos las llamadas convoluciones: Estas consisten en tomar «grupos de pixeles cercanos» de la imagen de entrada e ir operando matemáticamente (producto escalar) contra una pequeña matriz que se llama kernel. Ese kernel supongamos que tiene un tamaño de de 3×3 pixels y con ese tamaño logra «visualizar» todas las neuronas de entrada (de izquierda-derecha, de arriba-abajo) y asi logra generar una nueva matriz de salida, que en definitiva será nuestra nueva capa de neuronas ocultas.

NOTA: si la imagen fuera a color, el kernel realmente sería de 3x3x3 es decir: un filtro con 3 kernels de 3×3; luego esos 3 filtros se suman (y se le suma una unidad bias) y conformarán 1 salida (cómo si fuera 1 solo canal).

Tabla

Descripción generada automáticamente

Imagen que contiene biombo, juego, texto

Descripción generada automáticamente

Diagrama

Descripción generada automáticamente

¿ Por que el análisis se realizó sobre la tercer capa?

Resumen y explicación de esta sección

Para saber más

Referencias