기법/방법론중급
Learning Rate
학습률 · Learning Rate
모델의 가중치를 업데이트할 때 한 번에 얼마나 크게 조정할지 결정하는 값
상세 설명
Learning Rate (학습률)
딥러닝에서 가장 중요한 하이퍼파라미터입니다.
비유
산에서 내려올 때의 보폭
- 너무 크면: 최적점을 지나쳐 발산
- 너무 작으면: 학습이 너무 느림
- 적절하면: 효율적으로 최적점 도달
일반적인 값
0.001 ~ 0.0001
스케줄링
- Warmup: 처음에 작게 시작 → 점점 키움
- Cosine Decay: 코사인 곡선으로 감소
- Step Decay: 일정 주기마다 감소
LLM 학습
Warmup + Cosine Decay 조합이 표준
태그
#학습#하이퍼파라미터#최적화