slug
summary
tags
icon
password
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
R1-Reward模型通过StableReinforce算法显著提升多模态奖励模型的性能,解决了训练不稳定和推理一致性问题,实验结果显示在多个基准上超越现有最先进模型,展现出良好的推理扩展能力和数据效率。
爆火智能体再进化,终端成为关键词:2026年端侧AI能力至少涨3倍
联想推出超级智能体,具备感知、认知和自主能力,旨在提升个人和企业的生产力。未来12个月,端侧AI能力预计将提升三倍,推动AI在个人、企业和城市的广泛应用。
OpenAI重磅官宣:帮全球各国造星际之门!奥特曼亲临现场晒照
OpenAI推出「OpenAI for Countries」项目,旨在帮助各国建设AI数据中心和定制ChatGPT,推动经济增长与技术创新。该计划已在德克萨斯州启动首个超级计算园区,未来将与多个国家合作,促进AI发展和数据主权保障。
全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍
DeepSeek-R1在H100上实现了26倍性能提升,接近官方数据,标志着开源AI领域的重要进展。团队通过优化并行设计和采用新技术,成功在12个节点的集群上复现了DeepSeek的推理系统,降低了成本并提升了吞吐量。
欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车
Mistral推出的Medium 3模型声称性能接近Claude Sonnet 3.7,但在网友实测中表现不佳,尤其在编码和写作任务中未能超越竞争对手。尽管成本低,用户对其实际效果表示失望,建议不必下载。
上一篇
ChatGPT访问量超越Twitter;鹅厂开源视频生成大杀器;清华AI显微镜分辨率提升15.4倍;快手KuaiMod优化短视频生态;OpenAI连接GitHub | 05月09日AI资讯
下一篇
谷歌Gemini 2.5 Pro成编程模型新王;OpenAI豪掷30亿美元收购Windsurf;华为诺亚提出端侧大模型新架构MoLE;鹅厂免费3D生成模型火爆外网;FormalMATH基准测试揭示AI数学推理弱点 | 05月07日AI资讯
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/1ed629a6-152d-819b-a191-da24708f043d
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。