윤리/안전고급
Constitutional AI
헌법적 AI · Constitutional AI
명시적인 원칙(헌법)에 따라 AI가 스스로 행동을 평가하고 수정하는 학습 방법
상세 설명
Constitutional AI (헌법적 AI)
Anthropic이 개발한 AI 안전성 기법으로, AI에게 "헌법"을 제공합니다.
작동 원리
- AI에게 행동 원칙(헌법) 제공
- AI가 자신의 답변을 원칙에 비추어 평가
- 원칙에 어긋나면 스스로 수정
- 수정된 답변으로 학습
RLHF와의 차이
- RLHF: 인간이 직접 평가
- Constitutional AI: AI가 원칙 기반으로 자가 평가
장점
인간 평가자의 편향 감소, 확장성 향상
태그
#안전성#Anthropic#학습