Meta开源SAM Audio音频分割模型；阿里发布万相2.6视频生成模型；腾讯调整大模型组织架构；小米发布MiMo-V2-Flash模型；AI视频生成全球挑战赛启动 | 12月18日AI资讯

slug

summary

Meta开源了SAM Audio音频分割模型，阿里发布了万相2.6视频生成模型，腾讯调整大模型组织架构，推出AI Infra部，罗福莉介绍小米新模型MiMo-V2-Flash，全球视频生成挑战赛启动，LightSearcher框架提高AI推理效率，MiniMax和智谱AI通过港交所聆讯，计划上市。

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

Meta发布了音频分割模型SAM Audio，利用多模态提示技术实现音频分离，支持文本、视觉和时间跨度提示。该模型基于Perception Encoder Audiovisual（PE-AV），可在复杂音频中提取特定声音。Meta还推出了SAM Audio-Bench和SAM Audio Judge，旨在评估音频分割质量。尽管表现优异，SAM Audio仍面临一些局限，如不支持以音频本身作为提示。Meta希望通过此技术推动无障碍技术的发展。

🔗访问原文

全球功能最全的视频生成模型来了

阿里发布了新一代通义万相2.6模型，具备视频生成、音画同步和多镜头叙事等多项功能。该模型在视频参考生成和风格理解方面表现出色，但在复杂场景下仍有小瑕疵。整体而言，万相2.6的表现令人满意，适合日常短视频和二次创作使用。

🔗访问原文

腾讯大模型「变阵」：成立 AI Infra 部，姚顺雨出任首席 AI 科学家

腾讯宣布升级大模型研发架构，成立AI Infra、AI Data和数据计算平台三个新部门，以提升研发效率和算力基础设施。姚顺雨被任命为首席AI科学家，负责推动内部文化和组织变革。此次调整旨在解决算力效率问题，强化数据处理的重要性，并支持产品和业务的快速发展。腾讯的混元大模型已在多个应用场景中落地，显示出其在AI领域的竞争力。

🔗访问原文

「雷军的AI秘密武器」罗福莉首秀：详解小米AGI之路

罗福莉在小米大会上首次演讲，介绍了新模型MiMo-V2-Flash，强调其高效推理和长文本处理能力。模型采用MoE架构和MTP技术，具备309B总参数和15B激活参数，旨在推动AI从语言交互向物理世界的应用发展。尽管当前硬件限制了端侧AI的能力，罗福莉提出了未来AGI的愿景，强调需要构建与真实环境交互的物理模型，以实现更高层次的智能。

🔗访问原文

一等奖20万，大佬们出题，最硬核视频生成全球挑战赛开启！

首个AI视频生成全球挑战赛正式启动，设有两大赛道：主赛道专注于视频一致性，挑战者需提交模型以满足物理和逻辑一致性标准；创意赛道欢迎所有创作者提交AI生成的视频作品。一等奖奖金20万人民币，报名截止日期为2025年12月25日，决赛定于2026年1月12日。旨在推动视频生成技术的发展，建立行业标准和评测平台。

🔗访问原文

经验记忆黑科技：LightSearcher让AI工具调用减39.6%、推理快48.6%

北邮百家 AI 团队提出的 LightSearcher 框架通过经验记忆技术显著提高了深度推理系统的效率，搜索工具调用减少39.6%，推理时间缩短48.6%，token 消耗降低21.2%。该框架解决了现有模型在准确性与效率之间的矛盾，采用对比经验推理机制和自适应奖励塑造机制，确保工具调用最小化的同时提升答案质量，展现出强大的泛化能力。

🔗访问原文

独家 | AI六小龙抢跑IPO：MiniMax、智谱均已通过港交所聆讯

MiniMax和智谱AI已通过港交所聆讯，计划在2026年1月上市。MiniMax是首个在港提交IPO的国内AI大模型公司，投资者包括阿里巴巴和腾讯等。两家公司可能是内地企业赴港上市「报备制」以来过聆讯最快的案例。

🔗访问原文

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

全球功能最全的视频生成模型来了

腾讯大模型「变阵」：成立 AI Infra 部，姚顺雨出任首席 AI 科学家

「雷军的AI秘密武器」罗福莉首秀：详解小米AGI之路

一等奖20万，大佬们出题，最硬核视频生成全球挑战赛开启！

经验记忆黑科技：LightSearcher让AI工具调用减39.6%、推理快48.6%

独家 | AI六小龙抢跑IPO：MiniMax、智谱均已通过港交所聆讯

AI学长小林

交流频道

加入我们的社群讨论分享