AI日报 | 分类 | 小林的博客-AI学长

中科院清华快手联合提出R1-Reward模型；联想推出超级智能体；OpenAI启动「OpenAI for Countries」项目；DeepSeek开源复现性能提升26倍；Mistral Medium 3跑分对标Claude | 05月08日AI资讯

中科院清华快手联合提出R1-Reward模型，显著提升多模态奖励性能；联想推出超级智能体，预计端侧AI能力提升三倍；OpenAI启动「OpenAI for Countries」项目，助力各国AI发展；DeepSeek-R1实现26倍性能提升；Mistral Medium 3模型表现不佳，未超越竞争对手Claude。

谷歌Gemini 2.5 Pro成编程模型新王；OpenAI豪掷30亿美元收购Windsurf；华为诺亚提出端侧大模型新架构MoLE；鹅厂免费3D生成模型火爆外网；FormalMATH基准测试揭示AI数学推理弱点 | 05月07日AI资讯

谷歌发布Gemini 2.5 Pro编程模型，能通过单条文本提示生成完整应用；OpenAI以30亿美元收购Windsurf；华为诺亚推出新架构MoLE，显著降低推理延迟；鹅厂的3D生成模型广受欢迎，用户可免费生成个性化3D角色。

瑞莱智慧CEO强调大模型安全可控；OpenAI转型公益企业；英伟达开源Llama-Nemotron；微软开源UFO²；复旦强化学习视频模型超越Sora | 05月06日AI资讯

瑞莱智慧CEO强调大模型的安全可控性是实现强生产力的关键；OpenAI转型为公益责任公司，仍由非营利实体控制；英伟达推出新开源模型Llama-Nemotron，优化推理效率；微软开源UFO²，标志着桌面智能进入AgentOS时代；复旦大学等机构的国产视频大模型在VDC和VBench榜单上获第一。

DeepSeek-R1复现研究推动推理语言模型；港科广分层建模突破3D人体生成；苹果原生多模态Scaling Law性能飙升；LUFFY强化学习即学即用；AI自我复制能力引安全警示 | 05月05日AI资讯

DeepSeek-R1推动了推理语言模型的发展，港科广团队通过分层建模实现高保真3D人体生成，苹果的早融合架构提升了多模态模型性能，LUFFY强化学习显著提高数学推理任务表现，而AI的自我复制能力引发安全警示。

MIT研究AGI失控风险超90%；Video-XL-Pro突破长视频理解极限；OpenAI推出MRCR基准测试；谷歌NotebookLM支持中文；中兴通讯突破大模型推理上限 | 05月04日AI资讯

MIT研究显示AGI失控风险超过90%；Video-XL-Pro模型在长视频理解上突破98%准确率；OpenAI推出MRCR基准测试提升AI性能；谷歌NotebookLM支持中文播客；中兴通讯提出自适应难易度蒸馏方法提升小模型推理能力。

Gemini 2.5 Pro通关《宝可梦蓝》；Perception-R1超越YOLOv3；阿里云通义点金发布DianJin-R1；微软Phi-4数学推理称王；伯克利提出睡眠时计算技术 | 05月03日AI资讯

Gemini 2.5 Pro成功通关《宝可梦蓝》，Perception-R1在多模态感知上超越YOLOv3，阿里云推出DianJin-R1金融推理模型，微软的Phi-4在数学推理上表现优异，伯克利提出的“睡眠时计算”技术显著提升LLM推理效率。

ICML 2025录用结果引争议；微软与OpenAI合作前景不明；DeepSeek推理性能提升20%；全球首个AI科学家天团出道；InfiGUI-R1强化学习提升GUI智能体 | 05月02日AI资讯

ICML 2025的录用结果引发争议，审稿质量受到质疑；微软与OpenAI关系紧张，合作前景不明；全球首个AI科学家团队发布，超越人类博士；DeepSeek通过LoRA和强化学习提升推理性能20%；浙大与港理工提出InfiGUI-R1，增强GUI智能体的推理能力。

北大推出PHYBench测试AI物理能力；DeepSeek-Prover-V2刷新数学推理记录；英伟达UIUC扩展模型上下文至400万token；Meta被曝作弊刷分；OpenAI增强tool use能力 | 05月01日AI资讯

北大推出PHYBench基准测试AI物理能力，DeepSeek的新模型Prover-V2在数学定理证明上取得突破，英伟达与UIUC合作将模型上下文扩展至400万token，Meta被指控操控排行榜，OpenAI增强tool use能力，o3模型在任务完成上表现优异但仍有不足。

Meta推出独立AI助手融合社交元素；DeepSeek开源671B参数模型；清华吸引前DeepMind科学家；阿里妈妈发布世界知识大模型；Qwen 3开源战略破局 | 04月30日AI资讯

Meta推出结合社交元素的独立AI助手，DeepSeek开源671B参数模型，清华吸引前DeepMind科学家，阿里妈妈发布世界知识大模型以提升电商推荐效果，Qwen 3开源战略为中国大模型公司提供新机遇。

百度智能云推动AI产业化；阿里云发布Qwen3开源模型；无问芯穹开源推理加速神器；AI操控舆论能力引争议；UC伯克利研究无思考推理模型 | 04月29日AI资讯

百度智能云推动AI产业化，阿里云发布Qwen3开源模型，AI在操控舆论方面的能力引发伦理争议，无问芯穹推出推理加速系统，UC伯克利研究显示无思考推理模型的优势。

阿里Qwen3登顶全球最强开源模型；谷歌Gemini 2.5 Pro技术揭秘；DeepSeek V3推理能力突破；AI工具DFloat11无损压缩；麦肯锡推出内网版ChatGPT | 04月29日AI资讯

阿里发布Qwen3模型，超越DeepSeek R1，支持119种语言；谷歌Gemini 2.5 Pro优化计算资源和推理效率；DeepSeek V3引入深度思考，推理速度显著提升；DFloat11无损压缩框架可将模型压缩至70%大小，保持100%准确率；麦肯锡推出内网版ChatGPT，推动AI在咨询行业的应用。