Thread - Hyper

ocknamo（早く寝ろ） 🛡️ 1 year ago

そんなにすごいのか

どこから見てもメンダコ

LLMチューニングのための強化学習①：GRPO（Group Relative Policy Optimization） - どこから見てもメンダコ

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimization）について考え�...

Replies (0)

No replies yet. Be the first to leave a comment!