谷歌发布Nano Banana Pro图像模型；Meta推出SAM 3D分割技术；DeepSeek开源LPLB负载均衡器；斯坦福华人博士发布家务机器人Memo；ICLR严惩AI滥用行为 | 11月21日AI资讯

slug

summary

谷歌Nano Banana Pro上线，深度结合Gemini 3，这下生成世界了

谷歌推出了Nano Banana Pro图像生成模型，结合了Gemini 3的强大推理能力，具备高分辨率生成、出色的一致性控制和灵活的创意调控。用户可以生成2K和4K图像，支持多种长宽比，并能融合多达14张参考图像。该模型还具备强大的文本生成能力，支持多语言文本和实时数据的生成，提升了内容的准确性和实用性。

🔗访问原文

Meta「分割一切」进入3D时代！图像分割结果直出3D，有遮挡也能复原

Meta推出的SAM 3D模型可以将图像分割结果直接转换为3D模型，支持在遮挡情况下的物体重建。SAM 3D Objects和SAM 3D Body分别用于物体和人体建模，性能显著优于现有方法。SAM 3通过可提示概念分割克服了传统模型的局限，能够处理复杂的用户请求，并在多个基准测试中刷新了SOTA成绩。

🔗访问原文

DeepSeek悄悄开源LPLB：用线性规划解决MoE负载不均

DeepSeek在GitHub上发布了LPLB，一个基于线性规划的负载均衡器，旨在优化混合专家模型中的工作负载分配。LPLB通过动态重排序、构建副本和求解最优分配来解决负载不均的问题，强调轻量化求解过程。该项目为研究MoE架构训练加速提供了有价值的参考实现。

🔗访问原文

14万一台家务机器人！斯坦福华人博士具身创业首款产品亮相，用户还能买回去自己教

斯坦福华人博士团队推出的家务机器人Memo正式亮相，售价约14万元。该机器人具备多种家务能力，如叠袜子、洗碗和冲咖啡，使用独特的ACT-1基础模型进行训练，能够在新环境中自主导航。用户可以通过技能捕捉手套教机器人新技能，Memo设计友好且安全，预计2026年正式推出。

🔗访问原文

AI顶会ICLR最严新规：滥用AI的作者和审稿人，论文一律拒稿！

ICLR对滥用AI生成论文和评审采取严厉措施，未披露使用AI的论文将被拒稿，评审者若使用AI生成低质量评审也将面临拒稿。ICLR明确将AI生成的虚假引用视为违反道德，并将利用检测工具对提交进行筛查。学术界面临着人与机器的斗争，努力维护真实和质量。

🔗访问原文

并行扩散架构突破极限，实现5分钟AI视频生成，「叫板」OpenAI与谷歌？

CraftStory推出的Model 2.0视频生成系统能够生成长达五分钟的高质量视频，解决了AI视频生成中的时长限制，成为OpenAI和谷歌的强有力竞争者。该系统通过并行扩散架构同时处理多个视频片段，确保视频的连贯性和质量。该公司专注于企业市场，计划推出文本转视频模型，以满足企业在培训和营销中的需求。

🔗访问原文

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight，AIGC视频画质理解大模型

火山引擎多媒体实验室与北京大学合作的VQ-Insight模型在AAAI 2026会议上被选为口头汇报，旨在通过渐进式视觉质量强化学习提升AIGC视频的画质理解。该模型能够有效比较视频偏好，进行多维度评分，并在自然视频评分任务中表现优异。VQ-Insight通过创新的时序奖励机制和联合训练方式，实现生成模型与质量评估模型的协同优化。

🔗访问原文

谷歌Nano Banana Pro上线，深度结合Gemini 3，这下生成世界了

Meta「分割一切」进入3D时代！图像分割结果直出3D，有遮挡也能复原

DeepSeek悄悄开源LPLB：用线性规划解决MoE负载不均

14万一台家务机器人！斯坦福华人博士具身创业首款产品亮相，用户还能买回去自己教

AI顶会ICLR最严新规：滥用AI的作者和审稿人，论文一律拒稿！

并行扩散架构突破极限，实现5分钟AI视频生成，「叫板」OpenAI与谷歌？

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight，AIGC视频画质理解大模型

AI学长小林

交流频道

加入我们的社群讨论分享