기법/방법론중급
Pre-training
사전학습 · Pre-training
대규모 데이터로 범용적인 표현을 먼저 학습하는 단계
상세 설명
Pre-training (사전학습)
LLM 학습의 첫 번째이자 가장 비용이 큰 단계입니다.
과정
- 인터넷의 방대한 텍스트 데이터 수집
- "다음 토큰 예측" 과제로 학습
- 언어의 문법, 사실, 추론 능력 습득
비용
- GPT-4 사전학습: 추정 $1억+
- LLaMA 3 405B: GPU 수만 장 × 수개월
학습 파이프라인
사전학습 → SFT(지시 미세조정) → RLHF(인간 피드백) → 배포
중요성
사전학습 데이터의 품질이 모델의 기본 능력을 결정
태그
#학습#LLM#데이터