slug
summary
tags
icon
password
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
清华大学THU-IDM团队与慕尼黑大学CompVis团队提出了MoPPS框架,通过轻量化贝叶斯模型精准挑选训练题目,显著提升了强化学习模型的推理能力,训练速度提高1.8倍,推理开销降低78%。该方法有效解决了传统题海战术和动态采样的高成本问题,具有良好的适用性和扩展性,未来可应用于更大规模的模型训练。
给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026
Li Auto团队提出了一种新的多目标强化学习框架HyperVolume Optimization(HVO),旨在优化文本摘要生成的多个维度,如一致性、连贯性、流畅性和相关性。HVO基于GRPO框架,能够在不需要监督微调的情况下,使7B参数模型在摘要任务上达到与GPT-4相当的性能,同时生成更简洁的内容。实验结果显示,HVO在多个基准数据集上超越了现有方法,证明了其在处理复杂权衡和生成高质量摘要方面的有效性。
Pony Alpha新模型炸场!全球「猜爹大赛」开启
OpenRouter推出匿名模型Pony Alpha,引发全球开发者热议,纷纷猜测其来源。模型在编程和推理方面表现出色,支持200K上下文窗口,吸引了Claude、DeepSeek、Grok和GLM等多个阵营的讨论。Pony Alpha的成功展示了匿名盲测的新发布策略,强调用户体验的重要性,可能标志着国产大模型的崛起。
0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App
腾讯混元推出了HY-1.8B-2Bit模型,参数量仅0.3B,内存占用600MB,适合端侧部署。该模型通过2比特量化技术显著降低了模型体积,同时提升了生成速度2-3倍,满足了对离线部署和私密性的需求。模型在逻辑推理和长文处理上表现出色,采用了弹性拉伸量化和训练感知量化策略,以优化性能并降低训练成本。HY-1.8B-2Bit已适配多种计算平台,支持灵活部署于边缘设备上。
阿里达摩院开源具身大脑基模:3B激活参数性能超越72B,转身就忘事的机器人有救了
阿里达摩院开源了RynnBrain具身大脑基础模型,具备时空记忆和物理空间推理能力,显著提升了机器人在复杂环境中的表现。该模型在多项基准测试中超越了现有顶尖模型,且仅需3B的推理激活参数,性能却超过72B的模型。通过开源,达摩院希望降低行业研发门槛,推动具身智能的发展,助力机器人更好地理解和执行物理世界中的任务。
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
2026年,Self-Distillation成为大模型持续学习的关键。研究者们提出了三项重要成果:自蒸馏微调(SDFT)解决了传统监督微调中的灾难性遗忘问题,SDPO框架通过富反馈优化强化学习,OPSD框架在复杂推理任务中提升了学习效率。这些方法利用模型内生能力,实现自驱动的闭环升级,标志着大模型后训练阶段的标准配置。
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力
GLM-5新架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。匿名模型「Pony Alpha」被认为是GLM-5的测试版,引发社区热议。GLM-5的发布窗口与多个新模型的更新重叠,预计在2026年春节前后推出。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/303629a6-152d-81a4-a5ca-d8e3f2678697
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。


