일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Unity
- reinforcement learning
- Q-learning
- 강화학습
- PyTorch를 활용한 강화학습/심층강화학습 실전 입문
- CartPoleTask
- Reinforcement
- Cartpole
- Sarsa
- RL
- ReinforcementLearning
- Maze
- reinfocement
- 역진자 태스크
- Today
- Total
목록분류 전체보기 (5)
CodingE

강화학습을 하기위해서는 먼저 환경을 만들어야 하는데, 시각적으로 편하게 보기 위해서 유니티를 사용해보기로 했다. 유니티에서는 강화학습 모듈을 제공하는데 https://github.com/Unity-Technologies/ml-agents 를 다운받으면 된다. Docs 나 Localized_Docs안에 한글 번역판이 있는데 업데이트가 안된건지 오류생기는 부분이 있어 생겼던 변경 사항을 공유하고자 한다. 설치를 하기위해서 먼저 Installation에 들어가서 하라는 데로 하면 되는데. 1. 유니티 설치 https://unity.com/download [Download Download Unity now and get started with the world’s most popular development p..

CartPole이란? OpenAi는 테슬라 모터스나 스페이스X로 익숙한 일론 머스크 등의 기부로 2015년 말 설립된 인공지능 연구를 목적으로 하는 조직이다. OpenAI Gym은 이 OpenAI가 2016년 4월 발표한 강화학습 알고리즘을 구현해서 알고리즘간 성능을 비교하는 데 사용하는 실행환경이다. 아직은 수레를 의도대로 제어하는것이 아닌 무작위로 움직이게 하였다. # 구현에 사용할 패키지 임포트 %matplotlib inline import numpy as np import matplotlib.pyplot as plt import gym import imageio as imageio import datetime from IPython import display def save_frames_as_gi..

가치반복 알고리즘 강화학습에서는 가치의 척도로 돈 대신 보상(reward)라는 개념을 사용한다. 미로를 예로 들면 목표지점에 도달했을 때 보상을 부여하고, 로봇의 보행 태스크라면 넘어지지 않고 걸어간 거리를 보상으로 삼을 수 있다. 바둑이라면 대국 승리를 보삭으로 볼수 있는데 여기서 어떤 시간 t에 받을수 있는 보상Rt를 즉각보상이라고 한다. 그리고 강화학습에서는 보상 Rt를 적절히 결정해야 한다. 그리고 앞으로 받을수 있으리라 예상되는 보상의 합계 Gt를 총보상이라 한다. Gt = Rt+1 + ... Rt+n 이런 경우에 시간의 경과를 고려해야하므로 이자율을 포함해야한다.현재의 만원과 10년후의 만원의 가치가 다르듯 미래의 보상을 할인하는것을 시간 할인(time discount)라고 하며 이때의 할인율..

2024.04.01 - [Reinforcement Learning] - [RL] 미로찾기를 통한 강화학습 구현 (1) [RL] 미로찾기를 통한 강화학습 구현 (1) 강화학습을 공부하며 미로찾기를 강화학습을 통해 구현 하고자 한다. 정책(Policy)는 단순 함수 구현으로 할 예정이다. # import 목록 import numpy as np import matplotlib.pyplot as plt from matplotlib import animation sonnyson.tistory.com Policy Gradient Algorithm (정책 경사 알고리즘) 저번에 구현한 미로찾기 강화학습은 Agent가 Action을 무작위로 선택 하여 진행했기 때문에 매번 할때마다 state가 같기 때문에 랜덤한 값으..

강화학습을 공부하며 미로찾기를 강화학습을 통해 구현 하고자 한다. 정책(Policy)는 단순 함수 구현으로 할 예정이다. # import 목록 import numpy as np import matplotlib.pyplot as plt from matplotlib import animation 강화학습에서 Agent가 어떻게 행동할지를 결정하는 규칙을 "정책" 이라고 한다. 정책은 policy의 p 에 해당하는 그리스 문자인 pi(state,action)으로 표현하며 파라미터는 세타로 표현한다. "상태가 s일때 행동 a 를 취할 확률은 파라미터가 결정하는 정책 pi를 따른다" 는 의미이다. 미로탐색에서의 상태(state)는 agent의 미로 내의 위치에 해당한다. 여기서 사용할 미로를 예로 들면 S0 ~ ..