ocknamo(早く寝ろ) 🛡️ 1 year ago そんなにすごいのか どこから見てもメンダコLLMチューニングのための強化学習①:GRPO(Group Relative Policy Optimization) - どこから見てもメンダコDeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO(Group Relative Policy Optimization)について考え...