02月19日AI资讯 | Claude发布Sonnet 4.6百万token模型；谷歌Gemini上线AI音乐创作；蚂蚁开源UI-Venus-1.5 GUI智能体；ICLR'26揭示语音大模型理解缺陷；李飞飞World Labs获10亿美元融资推动3D空间智能

slug

summary

Claude发布的Sonnet 4.6模型具备百万token上下文，显著提升了理解和执行能力。谷歌Gemini推出AI音乐生成功能，支持多语言原创歌曲创作。蚂蚁开源UI-Venus-1.5，提升了GUI智能体的稳定性。ICLR'26的研究揭示语音大模型理解缺陷，强调语调和情感的重要性。李飞飞的World Labs获得10亿美元融资，推动3D空间智能技术的发展。阿里高德发布SpatialGenEval基准，评估文生图模型的空间智能能力。未来AI可能不再依赖人类开发，逐渐实现自我进化。

Claude最强Sonnet模型4.6来了，百万token上下文

Claude Sonnet 4.6模型发布，具备百万token的上下文窗口，全面升级了编码、计算机使用和智能体规划等能力。用户反馈显示，Sonnet 4.6在理解上下文和执行多步骤任务方面表现优越，且在安全性上有显著改进。该模型现已向所有Claude套餐用户开放，并在多个基准测试中表现出色，尤其在长程规划和盈利能力方面展现了新的策略。

🔗访问原文

谷歌Gemini上线AI音乐创作，一夜革了Suno的命！

谷歌在其Gemini应用中推出了AI音乐生成功能，用户可以通过文字或图片生成带人声和歌词的完整歌曲。新模型Lyria 3在音质和歌词生成方面有显著提升，支持多种语言。谷歌强调原创性，避免模仿现有艺术家，同时采取措施应对版权问题。此举标志着AI音乐生成的竞争升级为平台级别，可能改变用户与音乐的关系。

🔗访问原文

霸榜SOTA，蚂蚁开源UI-Venus-1.5，GUI智能体办事时代加速到来

蚂蚁推出的UI-Venus-1.5是一个高性能的端到端GUI智能体，旨在解决AI在手机和网页上稳定工作的挑战。通过中期训练、在线强化学习和模型融合，UI-Venus-1.5能够精准理解用户指令并完成多种操作，支持40多款主流中文应用，标志着向可用智能助手的迈进。

🔗访问原文

大模型真听懂了吗？最全综合性口语感知与推理基准 | ICLR'26

MMSU评测揭示语音大模型存在严重理解缺陷，最佳模型得分仅为60.7%，远低于人类的89.7%。研究强调语音理解不仅依赖于文本转写，还需考虑语调、停顿和情感等因素。MMSU基准覆盖47个子任务，系统评估SpeechLLMs在多层语言现象下的感知与推理能力，指出当前评测存在覆盖不足、数据真实性有限和缺乏语言学理论支撑等问题，强调语音理解是一个多层结构问题，需同时解析语言内容、声音组织与表达风格。

🔗访问原文

10亿美金！李飞飞惊爆硅谷：英伟达AMD入局，3D空间革命开战

李飞飞的初创公司World Labs成功获得10亿美元融资，目标是推动"空间智能"技术的发展。该公司致力于在3D虚拟世界中实现AI的感知、生成和互动，旨在颠覆现有的叙事方式和创意产出。融资方包括英伟达、AMD和Autodesk等科技巨头。李飞飞强调空间智能的重要性，认为它将对AI的发展产生重大影响，推动AI从2D到3D的转变。

🔗访问原文

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

阿里高德发布了SpatialGenEval评估基准，旨在深入探测文生图模型的空间智能能力。该基准将空间智能能力细分为四大维度和十个子维度，涵盖25个现实应用场景，评估结果显示当前模型在空间推理方面存在显著不足。研究还提出通过多模态大模型改进生成图像的提示词，以提升模型的空间智能表现，推动生成式AI在实际应用中的发展。

🔗访问原文

Agent 进化，不需要人类

未来的AI可能不再由人类开发，AI之间的协作和进化将逐渐减少对人类的依赖。通过不同的使用方式，AI可以自我生成技能，形成独立的文化基因，提升效率并降低资源消耗。当前的评价体系基于人的注意力，但在AI主导的网络中，这些指标失去意义。未来的探索可能会集中在如何让AI更有效地利用资源，而不是仅仅依赖人类的参与。

🔗访问原文