윤리/안전고급
Alignment
정렬 · Alignment
AI 모델의 행동이 인간의 가치와 의도에 일치하도록 조정하는 과정
상세 설명
Alignment (정렬)
AI가 우리가 원하는 대로 행동하도록 만드는 문제입니다.
기술
- RLHF: 인간 피드백으로 정렬
- Constitutional AI: 명시적 원칙으로 정렬
- Interpretability: 모델 동작 이해
중요성
AI가 더 강력해질수록 alignment의 중요성이 증가합니다.
태그
#안전성#윤리#신뢰