02月10日AI资讯 | 清华MoPPS框架加速RL训练1.8倍；理想汽车HVO框架让7B模型比肩GPT-4；OpenRouter匿名模型Pony Alpha引发全球猜测；腾讯混元推出0.3B参数2Bit量化模型；阿里达摩院开源RynnBrain具身大脑基模

slug

summary

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

清华大学THU-IDM团队与慕尼黑大学CompVis团队提出了MoPPS框架，通过轻量化贝叶斯模型精准挑选训练题目，显著提升了强化学习模型的推理能力，训练速度提高1.8倍，推理开销降低78%。该方法有效解决了传统题海战术和动态采样的高成本问题，具有良好的适用性和扩展性，未来可应用于更大规模的模型训练。

🔗访问原文

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

Li Auto团队提出了一种新的多目标强化学习框架HyperVolume Optimization（HVO），旨在优化文本摘要生成的多个维度，如一致性、连贯性、流畅性和相关性。HVO基于GRPO框架，能够在不需要监督微调的情况下，使7B参数模型在摘要任务上达到与GPT-4相当的性能，同时生成更简洁的内容。实验结果显示，HVO在多个基准数据集上超越了现有方法，证明了其在处理复杂权衡和生成高质量摘要方面的有效性。

🔗访问原文

Pony Alpha新模型炸场！全球「猜爹大赛」开启

OpenRouter推出匿名模型Pony Alpha，引发全球开发者热议，纷纷猜测其来源。模型在编程和推理方面表现出色，支持200K上下文窗口，吸引了Claude、DeepSeek、Grok和GLM等多个阵营的讨论。Pony Alpha的成功展示了匿名盲测的新发布策略，强调用户体验的重要性，可能标志着国产大模型的崛起。

🔗访问原文

0.3B参数，600MB内存！腾讯混元实现产业级2Bit量化，端侧模型小如手机App

腾讯混元推出了HY-1.8B-2Bit模型，参数量仅0.3B，内存占用600MB，适合端侧部署。该模型通过2比特量化技术显著降低了模型体积，同时提升了生成速度2-3倍，满足了对离线部署和私密性的需求。模型在逻辑推理和长文处理上表现出色，采用了弹性拉伸量化和训练感知量化策略，以优化性能并降低训练成本。HY-1.8B-2Bit已适配多种计算平台，支持灵活部署于边缘设备上。

🔗访问原文

阿里达摩院开源具身大脑基模：3B激活参数性能超越72B，转身就忘事的机器人有救了

阿里达摩院开源了RynnBrain具身大脑基础模型，具备时空记忆和物理空间推理能力，显著提升了机器人在复杂环境中的表现。该模型在多项基准测试中超越了现有顶尖模型，且仅需3B的推理激活参数，性能却超过72B的模型。通过开源，达摩院希望降低行业研发门槛，推动具身智能的发展，助力机器人更好地理解和执行物理世界中的任务。

🔗访问原文

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

2026年，Self-Distillation成为大模型持续学习的关键。研究者们提出了三项重要成果：自蒸馏微调（SDFT）解决了传统监督微调中的灾难性遗忘问题，SDPO框架通过富反馈优化强化学习，OPSD框架在复杂推理任务中提升了学习效率。这些方法利用模型内生能力，实现自驱动的闭环升级，标志着大模型后训练阶段的标准配置。

🔗访问原文

GLM-5架构曝光，智谱两日涨60%：采用DeepSeek同款稀疏注意力

GLM-5新架构曝光，采用DeepSeek稀疏注意力机制和多Token预测，参数量达到745B，是GLM-4.7的两倍。匿名模型「Pony Alpha」被认为是GLM-5的测试版，引发社区热议。GLM-5的发布窗口与多个新模型的更新重叠，预计在2026年春节前后推出。

🔗访问原文

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

Pony Alpha新模型炸场！全球「猜爹大赛」开启

0.3B参数，600MB内存！腾讯混元实现产业级2Bit量化，端侧模型小如手机App

阿里达摩院开源具身大脑基模：3B激活参数性能超越72B，转身就忘事的机器人有救了

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

GLM-5架构曝光，智谱两日涨60%：采用DeepSeek同款稀疏注意力

AI学长小林

交流频道

加入我们的社群讨论分享