RLinf RECAP (pi0.5) 昇腾910B适配简记 发表于 17 小时前 ## 一、背景 RLinf 是一个基于 Ray 的机器人强化学习框架。其核心算法 RECAP 通过四阶段流水线实现 classif …