中科院清华快手联合提出R1-Reward模型；联想推出超级智能体；OpenAI启动「OpenAI for Countries」项目；DeepSeek开源复现性能提升26倍；Mistral Medium 3跑分对标Claude | 05月08日AI资讯

slug

summary

R1-Reward模型通过StableReinforce算法显著提升多模态奖励模型的性能，解决了训练不稳定和推理一致性问题，实验结果显示在多个基准上超越现有最先进模型，展现出良好的推理扩展能力和数据效率。

联想推出超级智能体，具备感知、认知和自主能力，旨在提升个人和企业的生产力。未来12个月，端侧AI能力预计将提升三倍，推动AI在个人、企业和城市的广泛应用。

OpenAI推出「OpenAI for Countries」项目，旨在帮助各国建设AI数据中心和定制ChatGPT，推动经济增长与技术创新。该计划已在德克萨斯州启动首个超级计算园区，未来将与多个国家合作，促进AI发展和数据主权保障。

DeepSeek-R1在H100上实现了26倍性能提升，接近官方数据，标志着开源AI领域的重要进展。团队通过优化并行设计和采用新技术，成功在12个节点的集群上复现了DeepSeek的推理系统，降低了成本并提升了吞吐量。

Mistral推出的Medium 3模型声称性能接近Claude Sonnet 3.7，但在网友实测中表现不佳，尤其在编码和写作任务中未能超越竞争对手。尽管成本低，用户对其实际效果表示失望，建议不必下载。

AI学长小林