Insta360推出全景深度模型DAP；字节TRAE一年获600万开发者；智谱IPO成全球大模型第一股；OpenAI计划在ChatGPT引入广告；英伟达总结具身智能机器人趋势 | 12月30日AI资讯

slug

summary

Insta360推出全景深度模型DAP，解决深度估计数据稀缺问题；AdaTooler-V模型提高多模态推理能力；英伟达总结机器人领域的硬件与软件挑战；OpenAI计划在ChatGPT中引入广告以应对财务压力；字节跳动的AI工具TRAE吸引600万开发者；智谱IPO成为全球首家以AGI为核心业务的上市公司；JoVA模型提升音视频生成的同步准确性。

全景视觉的Depth Anything来了！Insta360推出DAP，200万数据打造全场景360°空间智能新高度

Insta360推出的Depth Any Panoramas (DAP)是首个在大规模多样化数据集上训练的全景度量深度基础模型，使用200万数据解决了深度估计中的数据稀缺问题。该模型在室内外场景中表现优异，具备强大的视觉先验和零样本泛化能力，能够为自动驾驶和VR/AR内容创作提供精准的深度信息。

🔗访问原文

必须得让AI明白，有些不该碰的东西别碰（doge）

AdaTooler-V是一种具有自适应工具使用能力的多模态推理模型，旨在解决模型盲目调用工具的问题。通过引入AT-GRPO算法，模型能够在工具确实带来性能提升时获得奖励，而在无效或有害时受到惩罚。实验结果显示，AdaTooler-V在多个图像和视频推理基准上表现优异，准确率显著提高。

🔗访问原文

具身智能机器人年度总结，来自英伟达机器人主管

机器人领域仍处于初级阶段，硬件进展快于软件，但硬件可靠性不足限制了软件迭代。缺乏统一的基准测试标准导致每个公司都能声称达到最先进水平。VLA模型是当前主流，但其预训练目标与机器人控制不对齐，未来需整合物理驱动的世界模型。数据在机器人研究中至关重要，未来需转向高保真模拟环境以提高数据利用效率。

🔗访问原文

Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

阿里P10技术负责人林俊旸转发了一篇关于视频模型的研究，指出视觉领域的'GPT时刻'即将到来。该研究表明，视频模型通过生成式训练实现了跨任务的通用能力，能够在多类视觉任务中展现零样本学习的优势。论文中提出的Chain-of-Frames方法使得推理过程可视化，推动视觉AI向统一生成机制发展。

🔗访问原文

全球最'贵'的大模型独角兽，向'广告'低头

OpenAI计划在ChatGPT中引入广告，以应对财务压力和竞争。尽管曾一度暂停广告计划，现已进入实质设计阶段，目标是通过非付费用户实现广告变现。公司内部对广告的态度有所转变，强调情境化和非侵入性的广告模式，以维持用户信任。

🔗访问原文

一年 200 次更新，字节 TRAE 如何拿下全球 600 万开发者

字节跳动的AI编码工具TRAE在不到一年内吸引了600万用户，生成了近1000亿行代码，处理了5亿条开发查询。TRAE的成功归功于其在性能、全能性和智能化方面的突破，显著提升了开发者的体验和工作效率。同时，TRAE还引入了自定义智能体功能，以确保生成代码符合团队标准，提升了代码的可控性和可追溯性。

🔗访问原文

市值511亿，1月8日IPO，大模型第一股花落智谱

智谱于1月8日正式上市，市值511亿港元，成为全球首家以AGI为核心业务的上市公司。此次IPO发行3741.95万股，募资约43.5亿港元，70%将用于AI大模型研发。智谱的MaaS模式已吸引290万用户，营收连续三年翻倍，年复合增长率达130%。最新的GLM-4.7模型在多个评估中表现优异。

🔗访问原文

一个强化学习信仰者的十年｜甲子光年

朱哲清在强化学习领域的十年历程中，从斯坦福到Meta再到创立Pokee AI，始终坚持在不确定环境中最大化长期回报。他专注于如何让机器更聪明地学习，尽管面临行业对大模型的偏好和多次质疑。他认为强化学习的瓶颈在于真实环境的复杂性，并通过InstructGPT的出现看到了希望。朱哲清的目标是构建具备卓越推理和规划能力的新一代AI Agent，坚信强化学习是通向AGI的关键路径。

🔗访问原文

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

JoVA是一种新提出的基于联合自注意力的视频-音频生成模型，旨在解决音视频对齐问题。该模型通过简化设计，直接在Transformer中实现模态融合，并引入嘴部区域特定损失以提高口型同步准确率。实验结果显示，JoVA在多个基准测试中表现优异，尤其在唇形同步和语音质量方面，展现出强大的生成能力和鲁棒性。

🔗访问原文

全景视觉的Depth Anything来了！Insta360推出DAP，200万数据打造全场景360°空间智能新高度

必须得让AI明白，有些不该碰的东西别碰（doge）

具身智能机器人年度总结，来自英伟达机器人主管

Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

全球最'贵'的大模型独角兽，向'广告'低头

一年 200 次更新，字节 TRAE 如何拿下全球 600 万开发者

市值511亿，1月8日IPO，大模型第一股花落智谱

一个强化学习信仰者的十年｜甲子光年

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

AI学长小林

交流频道

加入我们的社群讨论分享