Lazy loaded image
AI日报
02月10日AI资讯 | 清华MoPPS框架加速RL训练1.8倍;理想汽车HVO框架让7B模型比肩GPT-4;OpenRouter匿名模型Pony Alpha引发全球猜测;腾讯混元推出0.3B参数2Bit量化模型;阿里达摩院开源RynnBrain具身大脑基模
字数 1172阅读时长 3 分钟
2026-2-10
2026-2-10
slug
summary
tags
icon
password

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

清华大学THU-IDM团队与慕尼黑大学CompVis团队提出了MoPPS框架,通过轻量化贝叶斯模型精准挑选训练题目,显著提升了强化学习模型的推理能力,训练速度提高1.8倍,推理开销降低78%。该方法有效解决了传统题海战术和动态采样的高成本问题,具有良好的适用性和扩展性,未来可应用于更大规模的模型训练。

给GRPO加上运筹外挂让7B模型比肩GPT-4!Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

Li Auto团队提出了一种新的多目标强化学习框架HyperVolume Optimization(HVO),旨在优化文本摘要生成的多个维度,如一致性、连贯性、流畅性和相关性。HVO基于GRPO框架,能够在不需要监督微调的情况下,使7B参数模型在摘要任务上达到与GPT-4相当的性能,同时生成更简洁的内容。实验结果显示,HVO在多个基准数据集上超越了现有方法,证明了其在处理复杂权衡和生成高质量摘要方面的有效性。

Pony Alpha新模型炸场!全球「猜爹大赛」开启

OpenRouter推出匿名模型Pony Alpha,引发全球开发者热议,纷纷猜测其来源。模型在编程和推理方面表现出色,支持200K上下文窗口,吸引了Claude、DeepSeek、Grok和GLM等多个阵营的讨论。Pony Alpha的成功展示了匿名盲测的新发布策略,强调用户体验的重要性,可能标志着国产大模型的崛起。

0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App

腾讯混元推出了HY-1.8B-2Bit模型,参数量仅0.3B,内存占用600MB,适合端侧部署。该模型通过2比特量化技术显著降低了模型体积,同时提升了生成速度2-3倍,满足了对离线部署和私密性的需求。模型在逻辑推理和长文处理上表现出色,采用了弹性拉伸量化和训练感知量化策略,以优化性能并降低训练成本。HY-1.8B-2Bit已适配多种计算平台,支持灵活部署于边缘设备上。

阿里达摩院开源具身大脑基模:3B激活参数性能超越72B,转身就忘事的机器人有救了

阿里达摩院开源了RynnBrain具身大脑基础模型,具备时空记忆和物理空间推理能力,显著提升了机器人在复杂环境中的表现。该模型在多项基准测试中超越了现有顶尖模型,且仅需3B的推理激活参数,性能却超过72B的模型。通过开源,达摩院希望降低行业研发门槛,推动具身智能的发展,助力机器人更好地理解和执行物理世界中的任务。

2026开年关键词:Self-Distillation,大模型真正走向「持续学习」

2026年,Self-Distillation成为大模型持续学习的关键。研究者们提出了三项重要成果:自蒸馏微调(SDFT)解决了传统监督微调中的灾难性遗忘问题,SDPO框架通过富反馈优化强化学习,OPSD框架在复杂推理任务中提升了学习效率。这些方法利用模型内生能力,实现自驱动的闭环升级,标志着大模型后训练阶段的标准配置。

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5新架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。匿名模型「Pony Alpha」被认为是GLM-5的测试版,引发社区热议。GLM-5的发布窗口与多个新模型的更新重叠,预计在2026年春节前后推出。
上一篇
Vozo-根据文案自动配音并编辑视频
下一篇
OpenAI放大招!Codex桌面版保姆级教学:小白如何开启 Vibe Coding?