slug
summary
tags
icon
password
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
上海交通大学与字节跳动研究团队推出了RhymeRL框架,通过利用历史数据提升强化学习训练效率,吞吐量提高了2.6倍。该框架包括HistoSpec和HistoPipe两大核心技术,前者通过投机解码加速响应生成,后者优化GPU资源利用,消除空泡现象。这一创新为强化学习提供了新的范式,显著加快了AI模型的训练速度,降低了资源消耗。
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
Meta发布了MobileLLM-R1模型,参数不到1B,使用1/10的训练数据超越了Qwen3,性能提升2-5倍。该模型专注于数学、编程和科学问题,提供完整的训练方案和数据源,支持进一步研究。MobileLLM-R1-950M在多个基准测试中表现优异,尤其在MATH基准上准确率显著高于同类模型。该项目由华人科学家团队主导,致力于在有限计算资源下实现高性能模型的推理和部署。
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
强化学习(RL)在大推理模型(LRM)中的应用正在推动人工智能的发展,尤其在复杂逻辑任务如数学和编程中表现突出。研究者们总结了RL在LRM推理能力方面的最新进展,强调了可验证奖励机制的潜力和面临的挑战,包括奖励设计、算法效率和数据需求。未来,RL有望在实现通用人工超级智能(ASI)方面发挥关键作用,但仍需解决扩展性和实用性的问题。
🚀华为openPangu-DeepDiver开源,深度研究多Agent系统,支持百步以上工具推理,万字报告快速生成
华为openPangu-DeepDiver已开源,专注于多Agent系统的复杂信息检索与长文报告生成,表现优异。采用Planner+Executors架构,训练效率高,性能瓶颈在Executors。DeepDiver-V2在长文生成方面处于领先地位,报告内容详尽,涵盖市场分析、竞争格局和技术发展。感兴趣者可使用开源代码体验。
一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」
Qwen3-Next是一款开源模型,采用极稀疏的MoE架构,训练成本仅为传统模型的1/10,能够处理长文本并在推理性能上接近甚至超越大型闭源模型。其混合注意力机制和优化的稳定性设计使得在复杂推理任务中表现优异,尤其在256K超长上下文场景下展现出强大的能力。未来版本Qwen3.5将进一步提升智能水平和生产力,标志着开源社区在与闭源巨头竞争中的加速进程。
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
蚂蚁集团和人大联合团队成功训练了首个原生MoE架构的扩散语言模型LLaDA-MoE,使用20T数据,性能可与更大参数的自回归模型相媲美,并具备更快的推理速度。该模型的开发验证了扩散语言模型的可行性,未来将完全开源以推动技术发展。研究还探讨了扩散模型的双向建模和并行解码优势,解决了自回归模型的局限性,并在多个基准测试中表现优异。
上一篇
百度学术升级AI研究平台;微软光学计算机登Nature;AI高斯三周完成数学挑战;美团发布AI点餐Agent;TiM模型突破生成速度质量矛盾 | 09月14日AI资讯
下一篇
AI资讯-09月12日
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/26d629a6-152d-81eb-947b-fc93dbc9ffab
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。