谷歌Gemini 2.5 Pro成编程模型新王；OpenAI豪掷30亿美元收购Windsurf；华为诺亚提出端侧大模型新架构MoLE；鹅厂免费3D生成模型火爆外网；FormalMATH基准测试揭示AI数学推理弱点 | 05月07日AI资讯

slug

summary

FormalMATH基准测试评估了当前AI模型在数学推理中的表现，显示最佳模型成功率仅为16.46%。该测试涵盖5560道数学题，揭示了AI在微积分等领域的明显弱点，并提出未来需加强多步推理和人机协作的方向。所有数据和模型已公开。

谷歌发布了Gemini 2.5 Pro I/O，这是其最强编程模型的升级版，能够通过单条文本提示生成完整应用，显著提高了代码生成的准确性和效率，已在多个开发场景中获得广泛好评。该模型在生成网页应用方面表现优异，超越了竞争对手，成为开发者的新宠。

OpenAI即将以30亿美元收购AI编程工具Windsurf，此举旨在增强其在AI编程市场的竞争力。Windsurf因其灵活的模型选择和企业级功能受到青睐，收购将帮助OpenAI巩固其技术优势并拓展市场机会。

华为诺亚提出的MoLE架构通过将专家输入改为embedding token，并使用查找表替代传统矩阵运算，显著降低了推理延迟和显存开销，尤其在批量解码场景中表现出优势，保持与MoE相当的性能。

鹅厂推出的最新3D生成模型支持文/图生成3D模型和动画，用户只需上传照片即可创建个性化3D角色，且功能强大，已被广泛应用于游戏和艺术创作，完全免费，每日可生成20次。

AI学长小林