인프라/배포중급
Tokenizer
토크나이저 · Tokenizer
텍스트를 모델이 이해할 수 있는 토큰으로 분할하는 도구
상세 설명
Tokenizer (토크나이저)
텍스트를 컴퓨터가 처리할 수 있는 숫자로 변환하는 첫 단계입니다.
종류
- Word Tokenizer: 단어 단위
- Subword Tokenizer: BPE, WordPiece
- Character Tokenizer: 문자 단위
중요성
- Context Window: 토큰 수가 입력 제한을 결정
- 비용: 토큰 수 = API 비용
태그
#처리#텍스트#비용