英伟达开源自适应多模态世界生成模型；腾讯推出混合Mamba架构推理模型；DeepSeek吸引顶尖人才回流；MetaSpatial提升3D空间推理能力；AI PS卷起图片编辑革命 | 03月22日AI资讯

slug

summary

英伟达发布自适应多模态世界生成模型，腾讯推出混合Mamba推理模型，DeepSeek吸引顶尖人才回流，MetaSpatial提升3D空间推理能力，Grok和Google Gemini推出新图像编辑功能，可能改变传统编辑方式。

Nvidia发布了自适应多模态世界生成模型Cosmos-Transfer1，能够根据多种输入生成高度逼真的模拟环境，旨在提升机器人和自动驾驶训练的效果，缩小模拟与现实之间的差距，并支持多种风格和条件的生成。

腾讯推出基于混合Mamba架构的超大型推理模型混元T1，采用Hybrid-Mamba-Transformer融合模式，提升推理能力，定价低于竞争对手，已在腾讯云上线。

哈佛和斯坦福的中国毕业生开始向中国AI公司DeepSeek投简历，反映出美国对中国留学生的签证限制和国家安全担忧，导致人才回流趋势加剧。与此同时，越来越多的美国高校和研究人员也开始考虑回国发展，尤其是在AI领域。中国的技术生态系统正吸引大量顶尖人才。

MetaSpatial框架通过引入基于规则的强化学习策略，显著提升视觉语言模型在三维空间推理中的能力，能够在无标注数据的情况下生成合理的场景布局，并通过多轮优化和奖励机制提高模型的泛化能力和输出质量。实验结果显示，该方法在空间生成指标上优于传统的监督微调方法。

Grok推出了新的图片编辑功能，用户可以通过文字描述直接修改图片，效果出色，可能会改变传统图片编辑的方式。此功能与Google的Gemini2.0相似，标志着AI在图片编辑领域的范式转移，降低了技术门槛。虽然目前仍在灰度测试中，但未来可能会影响专业软件的使用。

AI学长小林