slug
summary
tags
icon
password
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度
Insta360推出的Depth Any Panoramas (DAP)是首个在大规模多样化数据集上训练的全景度量深度基础模型,使用200万数据解决了深度估计中的数据稀缺问题。该模型在室内外场景中表现优异,具备强大的视觉先验和零样本泛化能力,能够为自动驾驶和VR/AR内容创作提供精准的深度信息。
必须得让AI明白,有些不该碰的东西别碰(doge)
AdaTooler-V是一种具有自适应工具使用能力的多模态推理模型,旨在解决模型盲目调用工具的问题。通过引入AT-GRPO算法,模型能够在工具确实带来性能提升时获得奖励,而在无效或有害时受到惩罚。实验结果显示,AdaTooler-V在多个图像和视频推理基准上表现优异,准确率显著提高。
具身智能机器人年度总结,来自英伟达机器人主管
机器人领域仍处于初级阶段,硬件进展快于软件,但硬件可靠性不足限制了软件迭代。缺乏统一的基准测试标准导致每个公司都能声称达到最先进水平。VLA模型是当前主流,但其预训练目标与机器人控制不对齐,未来需整合物理驱动的世界模型。数据在机器人研究中至关重要,未来需转向高保真模拟环境以提高数据利用效率。
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」
阿里P10技术负责人林俊旸转发了一篇关于视频模型的研究,指出视觉领域的'GPT时刻'即将到来。该研究表明,视频模型通过生成式训练实现了跨任务的通用能力,能够在多类视觉任务中展现零样本学习的优势。论文中提出的Chain-of-Frames方法使得推理过程可视化,推动视觉AI向统一生成机制发展。
全球最'贵'的大模型独角兽,向'广告'低头
OpenAI计划在ChatGPT中引入广告,以应对财务压力和竞争。尽管曾一度暂停广告计划,现已进入实质设计阶段,目标是通过非付费用户实现广告变现。公司内部对广告的态度有所转变,强调情境化和非侵入性的广告模式,以维持用户信任。
一年 200 次更新,字节 TRAE 如何拿下全球 600 万开发者
字节跳动的AI编码工具TRAE在不到一年内吸引了600万用户,生成了近1000亿行代码,处理了5亿条开发查询。TRAE的成功归功于其在性能、全能性和智能化方面的突破,显著提升了开发者的体验和工作效率。同时,TRAE还引入了自定义智能体功能,以确保生成代码符合团队标准,提升了代码的可控性和可追溯性。
市值511亿,1月8日IPO,大模型第一股花落智谱
智谱于1月8日正式上市,市值511亿港元,成为全球首家以AGI为核心业务的上市公司。此次IPO发行3741.95万股,募资约43.5亿港元,70%将用于AI大模型研发。智谱的MaaS模式已吸引290万用户,营收连续三年翻倍,年复合增长率达130%。最新的GLM-4.7模型在多个评估中表现优异。
一个强化学习信仰者的十年|甲子光年
朱哲清在强化学习领域的十年历程中,从斯坦福到Meta再到创立Pokee AI,始终坚持在不确定环境中最大化长期回报。他专注于如何让机器更聪明地学习,尽管面临行业对大模型的偏好和多次质疑。他认为强化学习的瓶颈在于真实环境的复杂性,并通过InstructGPT的出现看到了希望。朱哲清的目标是构建具备卓越推理和规划能力的新一代AI Agent,坚信强化学习是通向AGI的关键路径。
港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型
JoVA是一种新提出的基于联合自注意力的视频-音频生成模型,旨在解决音视频对齐问题。该模型通过简化设计,直接在Transformer中实现模态融合,并引入嘴部区域特定损失以提高口型同步准确率。实验结果显示,JoVA在多个基准测试中表现优异,尤其在唇形同步和语音质量方面,展现出强大的生成能力和鲁棒性。
上一篇
AI资讯-12月31日
下一篇
英伟达200亿美元收购Groq补推理短板;OpenAI分析中美AI竞争中国赢两局;AI内存需求暴涨致价格飙升三倍;FysicsWorld发布首个物理世界全模态评测基准;北航研究揭示自动驾驶12毫秒致命缺陷 | 12月29日AI资讯
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/2d9629a6-152d-810c-8d55-f31907e92ef9
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。

