RLFromScratch 纯 Pytorch 从零开始实现 GRPO 和 DPO

授权协议:None操作系统:None 开发语言:None
RLFromScratch 用纯 Pytorch 从零开始实现了 GRPO 和 DPO。该项目展示训练过程的详细信息,如掩码、KL惩罚、调度和评估,帮助用户理解算法的实际运作。 使用该项目的训练...