DeepSeek에서 사용하는 주요 훈련 방법 4가지는 다음과 같습니다.
DeepSeek 훈련 방법 정리
훈련방법 | 설명 | 목표 |
Pre-training | 대량의 텍스트 데이터로 초기 학습 | 기본적인 언어 능력 학습 |
SFT | 사람이 직접 만든 데이터로 학습 | 더 정확하고 자연스러운 답변 생성 |
RLHF | 사람의 피드백을 활용한 강화학습 | 유용하고 논리적인 답변 생성 |
RORL | AI가 부적절한 요청을 거절하도록 학습 | 안전하고 윤리적인 AI 구현 |
이 4가지 방법을 조합하여 DeepSeek은 더 똑똑하고 안전한 AI 모델을 만들고 있습니다.
1. 사전 훈련 (Pre-training)
➡️ AI의 기초 지능을 만드는 과정
• 인터넷에서 수집한 방대한 텍스트 데이터(책, 논문, 웹사이트 등)를 활용하여 모델을 처음부터 학습
• 언어 패턴, 문법, 의미 구조 등을 이해하도록 훈련
• 이 단계에서는 지도 학습 없이, 대량의 데이터에서 확률적으로 언어 패턴을 학습
✅ 결과: AI가 기본적인 언어 능력을 갖춤
https://daffodil2024.blogspot.com/2025/02/cold-start.html
2. 지도학습 미세조정 (SFT, Supervised Fine-Tuning)
➡️ AI의 답변을 더 정확하고 유용하게 만드는 과정
• 사람이 직접 고품질의 질문-답변 데이터를 만들어 AI를 학습시킴
• AI가 엉뚱한 답변을 하거나 비논리적인 문장을 만들지 않도록 교정
• DeepSeek의 SFT는 다국어 및 전문 지식 데이터를 활용하여 학습
✅ 결과: AI가 더 정확하고 자연스러운 답변을 생성
https://daffodil2024.blogspot.com/2025/02/sft.html
3. 인간 피드백 기반 강화 학습 (RLHF, Reinforcement Learning from Human Feedback)
➡️ 사람의 평가를 반영하여 AI의 답변을 더 개선하는 과정
• AI가 생성한 답변을 사람(레이블러)이 평가
• 좋은 답변 👍과 나쁜 답변 👎을 비교하여 보상 모델(Reward Model, RM)을 학습
• AI가 더 높은 점수를 받을 수 있는 답변을 생성하도록 최적화
• PPO(Proximal Policy Optimization) 같은 강화 학습 기법 사용
✅ 결과: AI가 더 자연스럽고 유용한 답변을 생성
https://daffodil2024.blogspot.com/2025/02/what-is-rlhf.html
4. 거절 지향 강화 학습 (RORL, Rejection-Oriented Reinforcement Learning)
➡️ AI가 부적절한 요청을 거절하도록 학습하는 과정
• AI가 잘못된 정보, 위험한 질문(예: 범죄, 혐오 발언 등)에 대해 명확하게 거절하도록 훈련
• 거절하는 행동도 보상 모델에서 긍정적인 학습 결과로 반영
• OpenAI, DeepSeek 등 최신 AI 연구에서 안전성 강화를 위해 사용
✅ 결과: AI가 더 윤리적이고 안전한 답변을 제공
https://daffodil2024.blogspot.com/2025/02/rorl.html
댓글 없음:
댓글 쓰기