Lazy loaded image
AI日报
Meta开源SAM Audio音频分割模型;阿里发布万相2.6视频生成模型;腾讯调整大模型组织架构;小米发布MiMo-V2-Flash模型;AI视频生成全球挑战赛启动 | 12月18日AI资讯
字数 1111阅读时长 3 分钟
2025-12-18
2025-12-18
slug
summary
tags
icon
password

分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

Meta发布了音频分割模型SAM Audio,利用多模态提示技术实现音频分离,支持文本、视觉和时间跨度提示。该模型基于Perception Encoder Audiovisual(PE-AV),可在复杂音频中提取特定声音。Meta还推出了SAM Audio-Bench和SAM Audio Judge,旨在评估音频分割质量。尽管表现优异,SAM Audio仍面临一些局限,如不支持以音频本身作为提示。Meta希望通过此技术推动无障碍技术的发展。

全球功能最全的视频生成模型来了

阿里发布了新一代通义万相2.6模型,具备视频生成、音画同步和多镜头叙事等多项功能。该模型在视频参考生成和风格理解方面表现出色,但在复杂场景下仍有小瑕疵。整体而言,万相2.6的表现令人满意,适合日常短视频和二次创作使用。

腾讯大模型「变阵」:成立 AI Infra 部,姚顺雨出任首席 AI 科学家

腾讯宣布升级大模型研发架构,成立AI Infra、AI Data和数据计算平台三个新部门,以提升研发效率和算力基础设施。姚顺雨被任命为首席AI科学家,负责推动内部文化和组织变革。此次调整旨在解决算力效率问题,强化数据处理的重要性,并支持产品和业务的快速发展。腾讯的混元大模型已在多个应用场景中落地,显示出其在AI领域的竞争力。

「雷军的AI秘密武器」罗福莉首秀:详解小米AGI之路

罗福莉在小米大会上首次演讲,介绍了新模型MiMo-V2-Flash,强调其高效推理和长文本处理能力。模型采用MoE架构和MTP技术,具备309B总参数和15B激活参数,旨在推动AI从语言交互向物理世界的应用发展。尽管当前硬件限制了端侧AI的能力,罗福莉提出了未来AGI的愿景,强调需要构建与真实环境交互的物理模型,以实现更高层次的智能。

一等奖20万,大佬们出题,最硬核视频生成全球挑战赛开启!

首个AI视频生成全球挑战赛正式启动,设有两大赛道:主赛道专注于视频一致性,挑战者需提交模型以满足物理和逻辑一致性标准;创意赛道欢迎所有创作者提交AI生成的视频作品。一等奖奖金20万人民币,报名截止日期为2025年12月25日,决赛定于2026年1月12日。旨在推动视频生成技术的发展,建立行业标准和评测平台。

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

北邮百家 AI 团队提出的 LightSearcher 框架通过经验记忆技术显著提高了深度推理系统的效率,搜索工具调用减少39.6%,推理时间缩短48.6%,token 消耗降低21.2%。该框架解决了现有模型在准确性与效率之间的矛盾,采用对比经验推理机制和自适应奖励塑造机制,确保工具调用最小化的同时提升答案质量,展现出强大的泛化能力。

独家 | AI六小龙抢跑IPO:MiniMax、智谱均已通过港交所聆讯

MiniMax和智谱AI已通过港交所聆讯,计划在2026年1月上市。MiniMax是首个在港提交IPO的国内AI大模型公司,投资者包括阿里巴巴和腾讯等。两家公司可能是内地企业赴港上市「报备制」以来过聆讯最快的案例。
上一篇
字节Seedance 1.5 pro实现音画同出;深度机智推情境数采破具身智能天花板;壁仞科技冲刺港股GPU第一股;LightSearcher让AI工具调用减39.6%;商汤如影Agent提效电商运营20倍 | 12月19日AI资讯
下一篇
AI资讯-12月16日