RORL(Rejection-Oriented Reinforcement Learning)은 인공지능 모델을 훈련할 때 부적절하거나 낮은 품질의 응답을 적극적으로 거부하도록 설계된 강화 학습 기법입니다.
쉽게 설명하면?
기존의 RLHF(Reinforcement Learning from Human Feedback) 방식은 좋은 답변을 강화하는 데 초점을 맞추지만, RORL은 “나쁜 답변을 명확하게 거부하는 능력”도 훈련하는 것이 특징입니다.
예를 들어,
• 일반적인 AI는 **“부적절한 질문”**에 대해 부드럽게 답변을 피하려고 합니다.
• RORL을 적용한 AI는 명확하게 “이 질문에는 답할 수 없습니다”라고 거절하도록 학습됩니다.