微调推理增强

2025-03-02T00:00:00Z | 5分钟阅读 | 更新于 2025-03-02T00:00:00Z

模型推理增强微调

知识融合FuseAI

  • 能融合多个模型,降低训练成本,提升推理性能
  • 论文链接:https://arxiv.org/abs/2408.07990
  • 项目仓库:FuseAI
  • FuseO1智商确实不错,高数和计算机系统结构的刷题智力是真的强
  • 网友评论:fuse o1 32b刷穿了我的测试题库,r1-70b的4bit awq都刷不穿我的题库

PRefLexOR-自学习AI框架

LIMO: Less is More for Reasoning

Rethinking Compute-Optimal Test-Time Scaling

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

TinyR1-32B-Preview

传统蒸馏方法的困境:小模型为何难以保持高精度?

  • 数据选择难题:需要精心挑选最相关的领域数据并调整它们的比例进行联合训练,过程耗时且容易出错
  • 梯度冲突问题:同时优化多个领域会导致任务之间相互干扰,阻碍整体学习进度
  • 性能天花板:传统方法蒸馏出的小模型难以达到专业任务所需的性能水平

分支合并蒸馏:创新性的两阶段知识传递

分支阶段(Branch Phase)
  • 将知识从统一的大型教师模型(如DeepSeek-R1 671B)选择性地蒸馏到几个专门的学生模型中。具体来说,团队构建了三个专业数据集
    • 数学领域:从NuminaMath1.5筛选出58K个样本,并配合OpenR1的解决方案
    • 编程领域:从OpenThoughts数据集过滤形成20K个编码解决方案轨迹
    • 科学领域:利用DeepSeek-R1生成8.6K个科学问题的思维链轨迹
  • 基于DeepSeek-R1-Distill-Qwen-32B模型,对这三个领域分别进行监督微调(SFT),得到了三个专业领域的专家模型。
合并阶段(Merge Phase)
  • 通过Arcee Fusion技术将不同领域的专家模型合并成一个统一模型。这种合并不是简单的参数平均,而是通过三个精细步骤进行
    • 重要性评分:计算每个参数的重要性
    • 动态选择:确定参数更新的阈值
    • 选择性整合:只集成超过阈值的重要参数
  • 通过聚焦最显著的变化,避免了过度更新并维持了模型稳定性

惊人的成果:小模型也能有大智慧

  • 性能大幅提升:相比于backbone模型DeepSeek-R1-Distill-Qwen-32B,在数学领域提升了5.5个百分点,编程领域提升了4.4个百分点,科学领域提升了2.9个百分点
  • 超越更大模型:总体上超过了DeepSeek-R1-Distill-Llama-70B(数学+8.1,编程+4.1,科学-0.2)
  • 接近旗舰模型:性能接近DeepSeek-R1旗舰模型(数学-1.7,编程-4.3,科学-6.5)
  • 推理成本可控:生成的输出token数量仅比R1略多(数学+23%,编程+19%,科学+62%)
  • 参数量大幅减少:模型参数量更小,更适合用户和小团队在本地部署

高效与简便:90%时间成本节省

  • 合并阶段成本大降:与传统方法相比,合并阶段节省了90%的时间(4个H800 GPU仅需0.5小时 vs. 32个H800 GPU需要23小时)
  • 总复制成本可控:TinyR1-32B-Preview的理想复制成本为744个H800 GPU小时,约1500美元(不包括消融实验和参数搜索)
  • “免费午餐”:模型合并既降低了计算开销,又通过避免混合数据重新SFT带来的延迟,显著加速了模型发布过程

未来展望

  • 探索替代骨干模型:例如,使用Qwen-Instruct模型作为骨干进行SFT
  • 发布各种规模的模型:扩展模型阵容以满足不同需求
  • 深入研究实验细节影响:进一步分析各种实验设置如何影响最终性能

© 2024 - 2025 i68,爱六八,链接你我他-i68.ltd-随笔

关于我

i68,爱六八,链接你我他

我是一名热爱技术的开发人员,在这里我会记录一些关于技术或者生活上的事情。