기법/방법론중급
Reinforcement Learning
강화학습 · Reinforcement Learning
에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 학습하는 방법
상세 설명
Reinforcement Learning (강화학습)
시행착오를 통해 최적의 행동을 학습하는 방법입니다.
핵심 요소
- 에이전트: 학습하는 주체
- 환경: 에이전트가 상호작용하는 세계
- 상태: 현재 환경의 상황
- 행동: 에이전트의 선택
- 보상: 행동의 결과에 대한 피드백
성과
- AlphaGo (2016): 바둑 세계 챔피언 이세돌 승리
- AlphaFold (2020): 단백질 구조 예측
- RLHF: ChatGPT/Claude 학습에 핵심 역할
vs 지도학습
정답이 있는 게 아니라, 좋은 행동에 보상을 주며 학습
태그
#학습#게임#최적화