AI Scientist 2.0论文获ICLR高分；DeepSeek Janus领跑开源多模态模型；英伟达发布Llama Nemotron-253B；谷歌Deep Research升级Gemini 2.5；清华推VideoScene视频扩散模型 | 04月09日AI资讯

slug

summary

首个AI科学家发论文进ICLR！得分6/7/6，从选题到实验全程零人工，连GitHub代码库都是AI写的

首个完全由AI生成的论文在ICLR会议上获得6/7/6的评分，超过人类平均接受标准，展示了AI在科学研究中的潜力。AI Scientist 2.0能够自主生成假设、运行实验并撰写论文，标志着人工智能在科学探索中的重要进展。

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

MME-Unify提出了统一多模态大模型评测框架，涵盖理解、生成和混合任务，解决了评测标准混乱和缺乏评测体系的问题。实测显示，开源模型与闭源模型在生成质量和理解能力上存在差距，强调了多模态交叉能力的技术挑战。整体来看，U-MLLMs在实际应用上仍有提升空间。

🔗访问原文

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

英伟达发布了Llama Nemotron-253B推理模型，性能超越Llama 4和DeepSeek-R1，特别是在数学和科学推理方面，吞吐量提升4倍，支持128K token上下文长度，具备商用能力。该模型通过测试时Scaling技术和新颖的神经架构搜索实现了高效推理，适用于多智能体系统和复杂任务解决。

🔗访问原文

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

谷歌Deep Research升级至Gemini 2.5 Pro，能在5分钟内生成46页论文，性能超越OpenAI DR 40%，价格仅为其1/10。新功能包括清晰的逻辑推理和信息整合，已吸引众多用户测试，显示出强大的报告生成能力和深度分析。谷歌在AGI竞赛中占据优势，掌握关键资源与人才。

🔗访问原文

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

清华大学团队推出了一种新的视频扩散模型VideoScene，能够一步生成高质量的3D场景，显著提高生成效率，解决了传统方法在稀疏视角重建中的挑战，展示了在多个数据集上的优越性能，具有广泛的应用潜力。

🔗访问原文

首个AI科学家发论文进ICLR！得分6/7/6，从选题到实验全程零人工，连GitHub代码库都是AI写的

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

英伟达253B开源新王登场，Llama 4三天变陪衬！直逼DeepSeek-R1成推理天花板

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

AI学长小林

交流频道

加入我们的社群讨论分享