ChatGPT1 ChatGPT에게 물어보았습니다. - 노코드 솔루션 요즘 대세인 ChatGPT에게 평소 궁굼하던 것을 진지하게 물어 보았습니다. 음, 답변이 만족할만한 수준인지는 .... 그래도 자주 이용해보겟습니다. ㅇ InstructGPT와 형제모델 - DL 언어 생성 모델 - from GPT3.5(by text & code) - RLHF(Reinforcement Learning by Human Feedback) . SFT(Supervised Fine-Tuning): 사람이 직접 가르치는 방식으로 추가학습을 한 것 . RM(Reword Model): 사람이 보상하는 방식 . PPO(Proximal Policy Optimization) Algorithm: 정책 강화학습 한 것 ㅇ ChatGPT - InstructGPT와 동일 - 대화형 에이전트에 최적화하여 FT 한 것.. 2023. 3. 15. 이전 1 다음