Los métodos de Monte Carlo requieren solo experiencia: secuencias de muestra de estados, acciones y recompensas de la interacción real o simulada con un entorno.
En un número sorprendente de casos, es fácil generar experiencia muestreada de acuerdo con las distribuciones de probabilidad deseadas, pero no es factible obtener las distribuciones en forma explícita.
Los métodos de Monte Carlo son formas de resolver el problema del aprendizaje de refuerzo basándose en el promedio de los retornos de la muestra. Para garantizar que se disponga de retornos bien definidos, aquí definimos los métodos de Monte Carlo solo para tareas episódicas.
El término Monte Carlo suele utilizarse de forma más amplia para cualquier método de estimación cuyo funcionamiento implica un componente aleatorio significativo. Es una manera de transformar un problema determinista a uno estocástico.
Predicción de Montecarlo
Comenzamos considerando los métodos de Monte Carlo para aprender la función de valor del estado para una política dada. Recordemos que el valor de un estado es el retorno esperado (la recompensa futura acumulada esperada descontada) a partir de ese estado.
Una manera obvia de estimarlo a partir de la experiencia, entonces, es simplemente promediar los retornos observados después de las visitas a ese estado. A medida que se observan más retornos, el promedio debería converger al valor esperado .
En particular, supongamos que deseamos estimar
Por supuesto,
La primera visita de MC se muestra en forma de procedimiento en el recuadro.
Predicción con la primera visita MC, para estimar
Entrada: una política
Inicializar:
Bucle para siempre (para cada episodio):
Generar un episodio siguiendo
Bucle para cada paso del episodio,
Hasta que
Añadir
Estimación de valores de acción mediante Monte Carlo
Si no hay un modelo disponible, resulta especialmente útil estimar valores de acción (los valores de los pares estado-acción) en lugar de valores de estado.
El problema de evaluación de políticas para valores de acción es estimar
La única complicación es que muchos pares de acciones y estados pueden no ser visitados nunca. Si
Éste es el problema general de mantener la exploración. Para que la evaluación de políticas funcione en el caso de los valores de acción, debemos asegurar una exploración continua. Una forma de hacerlo es especificando que los episodios comienzan en un par estado-acción, y que cada par tiene una probabilidad distinta de cero de ser seleccionado como inicio. Esto garantiza que todos los pares estado-acción serán visitados una cantidad infinita de veces en el límite de una cantidad infinita de episodios. A esto lo llamamos el supuesto de inicios de exploración.
En particular, cuando se aprende directamente de la interacción real con un entorno. El enfoque alternativo más común para garantizar que se encuentren todos los pares de estado-acción es considerar solo políticas que sean estocásticas con una probabilidad distinta de cero de seleccionar todas las acciones en cada estado.
Control Monte Carlo
Ahora estamos listos para considerar cómo se puede utilizar la estimación de Monte Carlo en el control, es decir, para aproximar políticas óptimas. La idea general es proceder de acuerdo con la idea de iteración generalizada de políticas (GPI).
Realizamos pasos completos alternos de evaluación de políticas y mejora de políticas, comenzando con una política arbitraria
La mejora de la política se realiza haciendo que la política sea codiciosa con respecto a la función de valor actual. En este caso, tenemos una función de valor de acción y, por lo tanto, no se necesita ningún modelo para construir la política codiciosa. Para cualquier función de valor de acción
La mejora de la política puede entonces realizarse construyendo cada
Esto, a su vez, nos asegura que el proceso general converge hacia la política óptima y la función de valor óptima. De esta manera, los métodos de Monte Carlo pueden utilizarse para encontrar políticas óptimas dados solo episodios de muestra y ningún otro conocimiento de la dinámica del entorno.
Para obtener fácilmente esta garantía de convergencia para el método de Monte Carlo, hemos hecho dos suposiciones poco probables:
Para obtener un algoritmo práctico tendremos que eliminar ambas suposiciones.
La evaluación de políticas suele asumirse sobre episodios infinitos, pero este supuesto puede eliminarse. Tanto en Programación Dinámica (DP) como en Monte Carlo, la convergencia es asintótica. Para abordar esto, se puede aproximar
Otro enfoque para evitar episodios infinitos es no completar la evaluación antes de mejorar la política. En cada paso, la función de valor se mueve hacia
Para la iteración de políticas de Monte Carlo es natural alternar entre evaluación y mejora episodio por episodio. Después de cada episodio, los retornos observados se utilizan para la evaluación de políticas y luego la política se mejora en todos los estados visitados en el episodio. Un algoritmo simple completo en esta línea, que llamamos Monte Carlo ES, para Monte Carlo con inicios exploratorios, se presenta en pseudocódigo en el recuadro de la página siguiente.
Monte Carlo ES, para estimar
Inicializar:
Bucle para siempre (para cada episodio):
Escoge
Genera un episodio desde
Bucle para cada episodio,
Hasta que el par
Añadir
Control de Montecarlo sin inicios exploratorios
¿Cómo podemos evitar la improbable suposición de que inicios exploratorios? La única forma general de garantizar que todas las acciones se seleccionen con una frecuencia infinita es que el agente continúe seleccionándolas. Existen dos enfoques para garantizar esto, que dan como resultado lo que llamamos métodos on-policy y métodos off-policy.
Los métodos on-policy intentan evaluar o mejorar la política que se utiliza para tomar decisiones.
Los métodos off-policy evalúan o mejoran una política diferente de la utilizada para generar los datos.
En los métodos de control basados on-policy, la política es generalmente blanda (soft), lo que significa que
El método de política que presentamos en esta sección utiliza políticas
Todas las acciones no codiciosas se les da la probabilidad miníma de ser seleccioandas
La idea general del control de Monte Carlo en función de la política sigue siendo la del GPI. Al igual que en el método Monte Carlo ES, utilizamos métodos de control de Monte Carlo de primera visita para estimar la función de valor de la acción para la política actual.