본문 바로가기

Data Science/강화학습

(2)
[강화학습] 강화학습을 모델로! Q-learning, Q-Network, DQN 🔊 해당 포스팅은 딥러닝 파이토치 교과서 서적의 강화학습 챕터 내용과 김성훈 교수님의 강화학습 기초 강의를 기반으로 개인적인 학습 및 정리를 위해 작성되었습니다. 하단에 등장하는 모든 자료들은 필자가 직접 재구성하였음을 알립니다. 이번 포스팅에서는 저번 포스팅에서 학습한 MDP의 행동-가치 함수 이른바 Q-함수를 활용하는 Q-learning, Q-Network, 그리고 깊은 신경망을 적용한 DQN(Deep Q Network)에 대해서 알아보고, 이를 코드로 구현하는 방법을 소개한다. 해당 포스팅은 반드시 MDP의 행동-가치 함수를 이해해야 하므로 저번 포스팅을 읽고 오거나 해당 포스팅이 너무 내용이 길고 복잡하다면 직관적인 김성훈 교수님의 강의를 보고 오도록 하자. 1. Q-형님이 안내하는 곳으로, Q-..
[강화학습] 강화학습의 기반, 마르코프 결정 과정(Markov Decision Process) 🔊 해당 포스팅은 딥러닝 파이토치 교과서 서적의 강화학습 챕터 내용을 기반으로 개인적인 학습 및 정리를 위해 작성되었습니다. 하단에 등장하는 모든 자료들은 필자가 직접 재구성하였음을 알립니다. 이번 포스팅에서는 강화학습의 개념이 무엇인지 간단히 알아보고, 강화학습의 기반이 되는 마르코프 결정 과정(이하, MDP)에 대해 알아보도록 하자. 1. 강화학습의 5요소에 대해 알아보자 먼저 강화학습이란, 어떤 환경에서 에이전트가 어떤 행동을 했을 때, 그것이 잘한 행동인지 잘못된 행동인지를 판단하고 보상(또는 벌칙)을 주는 과정을 반복해서 에이전트 스스로 학습하게 하는 분야를 의미한다. 그래서 강화학습에서는 환경을 의미하는 '환경(Environment)' 이라는 것과 '에이전트(Agent)' 라는 구성요소를 사용..