slug
summary
tags
icon
password
字节 Seedance 1.5 pro,如何实现「音画同出」:中学生能看懂
字节发布的Seedance 1.5 pro模型实现了音视频的原生联合生成,能够同时生成声音和画面,避免了传统配音的口型不匹配问题。该模型具备文本生成音视频、图片生成音视频等四种能力,采用双分支Diffusion Transformer架构,通过跨模态联合模块实现音视频信息的实时交换。模型训练经过数据筛选、标签打标和课程式调度,推理速度提升超过10倍,且在音频表现力和口型匹配上优于竞争对手。
与Physical Intelligence同日发声:深度机智亮出「情境数采」杀手锏,具身智能的通用性天花板要被捅破了?
深度机智通过'情境数采'模式解决具身智能的通用性问题,强调数据应包含丰富的环境语境与因果关系。与北京高校合作成立的示范中心将以人类第一视角的数据采集为基础,推动物理智能的提升,助力机器人技能的涌现,最终实现更高效的与物理世界的交互。该模式的核心在于高质量、多样化数据的规模化供给,旨在打破机器人在复杂场景中的局限。
港股通用GPU第一股也冲刺了!哈佛博士带队,估值209亿
壁仞科技是一家估值209亿的国产GPU独角兽,刚在港交所通过聆讯,计划成为'国产GPU第一股'。公司专注于研发通用GPU芯片及智能计算解决方案,主要产品包括壁砺106和壁砺110芯片,服务于AI大模型训练和智能计算。尽管公司仍处于亏损状态,但其营业收入在持续增长,研发开支占比较高,核心团队由多位行业专家组成,吸引了众多知名投资者的关注。
经验记忆黑科技!LightSearcher让AI工具调用减39.6%、推理快48.6%
北邮百家AI团队提出的LightSearcher框架通过引入经验记忆机制,显著提高了深度思考大模型的工具调用效率,减少了39.6%的调用次数和48.6%的推理时间,同时保持了与SOTA基线相当的准确率。该框架解决了现有模型在准确性与效率之间的矛盾,采用对比经验推理机制和自适应奖励塑造机制,确保了推理质量与执行效率的双重优化。
对话商汤如影:如何用 Agent,实现电商运营的 20 倍能效提升?
商汤科技推出的如影营销 Agent 通过五个核心岗位的数字人,全面提升电商直播的运营效率,解决了传统人工操作的繁琐问题。每个 Agent 负责不同的任务,如直播场控、数据监控、店铺运营等,能够实现高达20倍的效率提升。数字人技术的进步使得直播更自然,互动性更强,且能在多个平台上应用,帮助商家降低成本并提高转化率。
柴天佑院士、何小鹏、清华教授齐聚Hi Tech Day,共议2026年AI走向
2025年人工智能领域经历了多项突破,包括DeepSeek R1的推出和GPT-5.2的发布。腾讯科技Hi Tech Day汇聚了专家和企业领袖,讨论工业智能、物理AI和AI治理等议题。柴天佑院士强调工业智能化的重要性,何小鹏预测机器人和无人驾驶汽车将成为年轻人的新标配。清华大学教授梁正指出AI治理面临的挑战,并提出应推动敏捷治理,以支持AI的健康发展。
上一篇
AI资讯-12月20日
下一篇
Meta开源SAM Audio音频分割模型;阿里发布万相2.6视频生成模型;腾讯调整大模型组织架构;小米发布MiMo-V2-Flash模型;AI视频生成全球挑战赛启动 | 12月18日AI资讯
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/2ce629a6-152d-8155-bb90-fdaac72741c6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。