微调推理增强
2025-03-02T00:00:00Z | 5分钟阅读 | 更新于 2025-03-02T00:00:00Z
@
i68.ltd
模型推理增强微调
知识融合FuseAI
- 能融合多个模型,降低训练成本,提升推理性能
- 论文链接:https://arxiv.org/abs/2408.07990
- 项目仓库:FuseAI
- FuseO1智商确实不错,高数和计算机系统结构的刷题智力是真的强
- 网友评论:fuse o1 32b刷穿了我的测试题库,r1-70b的4bit awq都刷不穿我的题库
PRefLexOR-自学习AI框架
- 能够像人类一样进行深度思考和自主进化的AI框架
- 基于偏好的递归语言建模,用于探索性推理优化和自主思考
- 论文链接:https://arxiv.org/pdf/2502.13025
- 项目仓库:https://github.com/lamm-mit/PRefLexOR
- 须进行模型训练微调
LIMO: Less is More for Reasoning
- 论文地址:https://arxiv.org/html/2502.03387v1
- 项目地址:https://github.com/GAIR-NLP/LIMO
- 颠覆传统!比DeepSeek R1更省资源 | LIMO模型用少量数据实现高效推理,超越SFT极限
Rethinking Compute-Optimal Test-Time Scaling
- 论文地址:https://arxiv.org/pdf/2502.06703
- 项目地址:https://github.com/RyanLiu112/compute-optimal-tts
- 1B小模型完胜405B巨无霸!上海AILab新突破
- 通过TTS策略,小型语言模型(LLM)具备显著超越大型模型的潜力
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
- 使用基于规则的强化学习释放LLM推理
- 论文地址:https://arxiv.org/pdf/2502.14768
- 项目仓库:https://github.com/Unakar/Logic-RL
- REINFORCE++逆袭Deepseek的GRPO!微软团队用逻辑谜题揭示大模型顿悟时刻
- 仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini
TinyR1-32B-Preview
- 结合DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练、模型融合等技术,使用360-LLaMA-Factory训练而来
- 360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能
- Tiny-R1-32B-Preview
- OpenAI o1复现——360 LLaMA Factory 训练超长思维链
- 360-LLaMA-Factory
- TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation
传统蒸馏方法的困境:小模型为何难以保持高精度?
- 数据选择难题:需要精心挑选最相关的领域数据并调整它们的比例进行联合训练,过程耗时且容易出错
- 梯度冲突问题:同时优化多个领域会导致任务之间相互干扰,阻碍整体学习进度
- 性能天花板:传统方法蒸馏出的小模型难以达到专业任务所需的性能水平
分支合并蒸馏:创新性的两阶段知识传递
分支阶段(Branch Phase)
- 将知识从统一的大型教师模型(如DeepSeek-R1 671B)选择性地蒸馏到几个专门的学生模型中。具体来说,团队构建了三个专业数据集
- 数学领域:从NuminaMath1.5筛选出58K个样本,并配合OpenR1的解决方案
- 编程领域:从OpenThoughts数据集过滤形成20K个编码解决方案轨迹
- 科学领域:利用DeepSeek-R1生成8.6K个科学问题的思维链轨迹
- 基于DeepSeek-R1-Distill-Qwen-32B模型,对这三个领域分别进行监督微调(SFT),得到了三个专业领域的专家模型。
合并阶段(Merge Phase)
- 通过Arcee Fusion技术将不同领域的专家模型合并成一个统一模型。这种合并不是简单的参数平均,而是通过三个精细步骤进行
- 重要性评分:计算每个参数的重要性
- 动态选择:确定参数更新的阈值
- 选择性整合:只集成超过阈值的重要参数
- 通过聚焦最显著的变化,避免了过度更新并维持了模型稳定性
惊人的成果:小模型也能有大智慧
- 性能大幅提升:相比于backbone模型DeepSeek-R1-Distill-Qwen-32B,在数学领域提升了5.5个百分点,编程领域提升了4.4个百分点,科学领域提升了2.9个百分点
- 超越更大模型:总体上超过了DeepSeek-R1-Distill-Llama-70B(数学+8.1,编程+4.1,科学-0.2)
- 接近旗舰模型:性能接近DeepSeek-R1旗舰模型(数学-1.7,编程-4.3,科学-6.5)
- 推理成本可控:生成的输出token数量仅比R1略多(数学+23%,编程+19%,科学+62%)
- 参数量大幅减少:模型参数量更小,更适合用户和小团队在本地部署
高效与简便:90%时间成本节省
- 合并阶段成本大降:与传统方法相比,合并阶段节省了90%的时间(4个H800 GPU仅需0.5小时 vs. 32个H800 GPU需要23小时)
- 总复制成本可控:TinyR1-32B-Preview的理想复制成本为744个H800 GPU小时,约1500美元(不包括消融实验和参数搜索)
- “免费午餐”:模型合并既降低了计算开销,又通过避免混合数据重新SFT带来的延迟,显著加速了模型发布过程
未来展望
- 探索替代骨干模型:例如,使用Qwen-Instruct模型作为骨干进行SFT
- 发布各种规模的模型:扩展模型阵容以满足不同需求
- 深入研究实验细节影响:进一步分析各种实验设置如何影响最终性能