기법/방법론중급
Gradient Descent
경사 하강법 · Gradient Descent
손실 함수의 기울기를 따라 모델의 가중치를 최적화하는 알고리즘
상세 설명
Gradient Descent (경사 하강법)
머신러닝 최적화의 기본 알고리즘입니다.
비유
안개 낀 산에서 가장 낮은 곳을 찾아 내려가는 것
→ 발밑의 경사(기울기)를 느끼며 내리막 방향으로 이동
변형
- SGD: 무작위 1개 샘플로 업데이트
- Mini-batch GD: 작은 묶음으로 업데이트
- Adam: 적응적 학습률 (가장 많이 사용)
- AdamW: Adam + Weight Decay (LLM 학습 표준)
학습률
보폭의 크기. 너무 크면 발산, 너무 작으면 느림
태그
#최적화#학습#수학