모델/아키텍처고급
Mixture of Experts
전문가 혼합 · Mixture of Experts
입력에 따라 일부 전문가 네트워크만 활성화하여 효율적으로 처리하는 모델 아키텍처
상세 설명
Mixture of Experts (MoE)
거대 모델의 효율성 문제를 해결하는 아키텍처입니다.
원리
- 여러 "전문가" 네트워크를 갖고 있되
- 각 입력에 대해 일부 전문가만 활성화
- 게이팅 네트워크가 어떤 전문가를 쓸지 결정
장점
- 총 파라미터 수는 많지만 (지식 풍부)
- 활성 파라미터 수는 적음 (추론 빠름)
적용
- Mixtral (Mistral): 8개 전문가 중 2개 활성화
- GPT-4: MoE 사용 추정
- Switch Transformer (Google): 2,048개 전문가
태그
#아키텍처#효율성#LLM