RL 썸네일형 리스트형 [Part 6] Partial Observability and Deep Recurrent Q-Networks 포스팅에 앞서 Reference의 contents를 review하는 글임을 밝힙니다. 이번 포스팅에서는 강화학습의 Partial observability 문제에 대해 다루겠습니다. 비교적 간단한 환경에서 구현된 agent라면 문제가 되지 않으나 현실 세계와 같은 문제에서는 Partial observability 문제가 발생합니다. 하지만 인간은 시각적으로나 논리적으로, 먼 미래의 현상을 정확하게 예견할 수 없는 환경에서 발생하는 문제를 비교적 정확하게 해결합니다. Partial observability 문제는 어떻게 해결했을까요? The Problem of Partial Observability앞의 Part 4와 Part 5에서의 gridworld 환경에서 구현했던 agent는 optimal policy.. [Part 5] Visualizing an Agent’s Thoughts and Actions 포스팅에 앞서 Reference의 contents를 review하는 글임을 밝힙니다. 이번 포스팅에서는 앞서 Part 4에서 다루었던 grid world agent의 학습 과정을 다룬 interface에 대해 다룰 것입니다. Deep learning에서 black box라고만 여겨졌던 학습 과정을 조금이나마 들여다보기위해 loss나 accuracy등의 수치를 찍어봅니다. Reinforcement learning에서도 action과, reward, 그리고 현재 state까지 볼 수 있으면, agent가 학습하는 것을 조금 더 잘 이해할 수 있겠다는 생각각이 듭니다. 이러한 흐름에서, agent의 learning information을 보여주는 웹 인터페이스, Reinforcement learning con.. [Part 4] Deep Q-Networks and Beyond 포스팅에 앞서 Reference의 contents를 review하는 글임을 밝힙니다. 이번 포스팅에서는 강화학습의 Q-networks에 Deep Learning을 적용한 Deep Q-networks를 다루겠습니다. Part 0의 FrozenLake 예제에서는 Q-net이 table을 이용한 방법보다 좋은 성능을 내지 못했습니다. 하지만 Google DeepMind의 Playing Atari with Deep Reinforcement Learning(2013) 논문에서 적용한 아래의 세 가지 사항을 반영한 DQN을 구성하여 FrozenLake와 비슷한 환경에서 agent를 구성해보겠습니다. 우리가 Q-net에 반영할 사항은 아래 세 가지 입니다. 1) CNN(Convolution Neural Network.. [Ch.9] DQN(Deep Q-Networks) 우리는 지금까지 MDP로 정의된 문제를 푸는 강화학습의 여러 방법들을 살펴보았습니다. 하지만, 이는 table형태로 값을 저장하기때문에 현실의 문제를 다루기에는 한계가 있어서 value func.을 parameter w를 이용한 func.으로 approximation하여 이 w을 update시킨다고 했습니다. 이번 포스팅에서는 이러한 강화학습의 func. approximator로써 Deep Learning을 사용하는 DQN에 대해서 다루겠습니다. 이 포스팅에서는 기본적인 neural network에 대해 알고 있다고 가정하고 DQN을 중점적으로 다루겠습니다. 혹시 neural network에 대해 더 알고 싶으신 분은 제가 review하고 있는 reference [1]이나 거기에 참조되어있는 아래 두 링.. [Ch.8] Value Function Approximation 지난 포스팅까지 살펴본 방법론들은 제가 구현한 code를 보시면 느끼셨겠지만 value func.과, action value func.을 table로 저장하고 이를 꺼내어 쓰고, update하는 방식으로 이루어집니다. 이러한 방법을 Tabular Method라고 합니다. Ch.5의 MC control agent와 Ch.6의 SARSA agent를 구현한 gridworld에서는 col, row가 각각 5개씩, 그리고 이에 취할 수 있는 action은 4개였습니다. 하지만, 간단한 gridworld가 아닌, 현실의 문제는 이보다 훨씬 복잡한 환경에서 이루어집니다. 아래글은 Sutton 교수님의 책에서 이에 대해 인용한 것입니다. We have so far assumed that our estimates of.. [Part 3] Model-based RL 포스팅에 앞서 Reference의 contents를 review하는 글임을 밝힙니다. 이번 포스팅에서는 강화학습 중에서도 model-based한 방법에 대해 알아보겠습니다. Part_2에서는 Cart-Pole problem에 대해 policy gradient agent를 설계했습니다. 우리는 지금까지 실제 env.과 상호작용을 하며 model을 받아와서 사용했습니다. 하지만, 현실의 문제는 이렇게 편리하게 env.이 갖춰져있지 않습니다. 따라서, 이를 modeling하는 방법이 필요하고 그 방법이 model-based RL입니다. Cart-pole 예제를 통해서 model-based RL은 env.의 model을 학습하면서 동시에 policy gradient 방법으로 최대 reward를 얻기 위해 어떤 .. [Ch.7] Off-Policy Control 이번 포스팅에서는 off-policy control에 대해 다루겠습니다. Ch.5의 MC와 Ch.6의 TD는 모두 on-policy control에 해당합니다. on-policy control이란, 현재 움직이고 있는(action을 취하는) policy와 improve하는 policy가 같다는 뜻입니다. MC나 TD의 경우 control을할 때 action을 취하는 policy와 improve하는 policy가 같습니다. 하지만, on-policy control에서는 greedy improvement의 방법으로 policy를 improve할 때 한계가 있습니다. 이를 해결하는 방법으로 ε-greedy improvement를 소개했었는데 다른 방법도 존재합니다. 그 방법이 바로 off-policy cont.. [Ch.6] Temporal Difference Methods 이번 포스팅에서는 Ch.5의 Monte-Carlo와 같이 model-free한 방법으로써, Temporal Difference Methods에 대해 다루겠습니다. MC는 한 episode가 끝난 후에 얻은 return값으로 각 state에서 얻은 reward를 시간에 따라 discounting하는 방법으로 value func.을 update합니다. 하지만, atrai게임이나 현실의 문제는 episode의 끝이 무한대에 가깝도록 길기 때문에 episode가 반드시 끝나야 학습을 하는 MC의 방법으로는 한계가 존재합니다. DP처럼 time-step마다 학습하면서 model-free한 방법이 바로 TD입니다. TD Methods Sutton교수님 책에서 TD를 아래와 같이 설명하고 있습니다. If one ha.. [Part 2] Policy-based Agents(Cart-Pole Problem) 포스팅에 앞서 Reference의 contents를 review하는 글임을 밝힙니다. Part 1과 Part 1.5에 이어 이번 포스팅에서는 제대로된(perfect) 강화학습에 대해 살펴보겠습니다. Part 1.5 포스팅에서는 Part 1과 1.5의 예제가 강화학습과 어떻게 다른지, 어떤 조건이 결여되어 있는지 설명했습니다. 이를 다시 짚고 Part 2로 넘어가는 것이 좋겠습니다. 원 포스팅의 글에서 이해를 돕기 위해 왼쪽에 간단한 그림을 추가했습니다. MAB(Part 1)의 문제에서는 State가 변하지 않고 오로지 하나의 bandit에서 arm을 선택하는 action을 통해 reward를 얻습니다. 그리고 이에 state의 개념을 더하여.. [Part 1.5] Contextual Bandits 포스팅에 앞서 Reference의 contents를 review하는 글임을 밝힙니다. 이번 포스팅에서는 본격적인 강화학습에 대한 실습에 들어가기 앞서, Part 1의 MAB algorithm에서 강화학습으로 가는 중간 과정을 다룰 겁니다. MAB의 경우, agent가 학습하는 것은 reward를 최대로 하는 machine을 적당한 Exploration을 통해 찾고 이를 Exploit하는 겁니다. 이 때, agent를 state의 개념이 없이 action과 reward를 통해서만 학습을 진행하게됩니다. 앞선 MAB algorithm을 온전한 강화학습으로 생각하기에는 부족한 요소가 있기때문에 강화학습의 입문 과정으로써, Contextual Bandits에.. 이전 1 2 다음