산업
MIT, 메모리 병목 해결 기술 공개…"KV 캐시 50배 압축"
MIT가 대형언어모델LLM이 긴 문서나 장기 작업을 처리할 때 발생하는 메모리 병목 문제를 해결할 기술을 선보였다. MIT 연구진은 모델의 핵심 작업 메모리인 KV 캐시를 최대 50배까지 압축하면서도 성능 저하를 거의 발생시키지 않는 압축 기법 ‘어텐션 매칭Attention Matching’을 온라인 아카이브를 통해 공개했다.LLM은 답변을 생성할 때 이전에 처리한 모든 토큰 정보를 저장해 두고 이를 참고한다. 이때 저장되는 키Key와 값Value 벡터의 집합이 바로 KV 캐시다.이 구조는 모델이 이전 대화나 문서 내
이 콘텐츠는 AI타임스 원본 기사의 요약입니다. 전문은 원본 사이트에서 확인해주세요.
원문 기사 보기 →