인프라/배포입문
Dataset
데이터셋 · Dataset
AI 모델을 학습시키거나 평가하기 위해 구조화된 데이터의 집합
상세 설명
Dataset (데이터셋)
AI 모델의 성능은 데이터셋의 품질에 의해 결정됩니다.
주요 데이터셋
- ImageNet: 이미지 1,400만장 (비전의 표준)
- Common Crawl: 웹 크롤링 데이터 (LLM 학습)
- LAION: 50억 이미지-텍스트 쌍
- The Pile: 800GB 텍스트
구분
- 학습셋: 모델 학습용 (보통 80%)
- 검증셋: 하이퍼파라미터 조정용 (10%)
- 테스트셋: 최종 성능 평가용 (10%)
주의점
편향된 데이터 → 편향된 모델
태그
#데이터#학습#품질