4月8日,阿里通义实验室智能计算团队发布新算法FIPO(未来KL影响策略优化)。该算法通过“Future-KL”机制,重点奖励对推理结果起关键作用的Token,有效突破了纯强化学习训练中推理长度难以提升的瓶颈。在32B模型规模下,该算法首次让模型在性能上超过o1-mini和同规模的DeepSeek-Zero-MATH。