发布于: 2025-5-7最后更新: 2025-5-7字数 00 分钟

slug
summary
tags
icon
password

挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%

FormalMATH基准测试评估了当前AI模型在数学推理中的表现,显示最佳模型成功率仅为16.46%。该测试涵盖5560道数学题,揭示了AI在微积分等领域的明显弱点,并提出未来需加强多步推理和人机协作的方向。所有数据和模型已公开。

AI编程模型领域迎新王?谷歌发布Gemini 2.5 Pro I/O,单条文本提示即可生成完整应用

谷歌发布了Gemini 2.5 Pro I/O,这是其最强编程模型的升级版,能够通过单条文本提示生成完整应用,显著提高了代码生成的准确性和效率,已在多个开发场景中获得广泛好评。该模型在生成网页应用方面表现优异,超越了竞争对手,成为开发者的新宠。

豪掷30亿美元,OpenAI史上最大收购案!

OpenAI即将以30亿美元收购AI编程工具Windsurf,此举旨在增强其在AI编程市场的竞争力。Windsurf因其灵活的模型选择和企业级功能受到青睐,收购将帮助OpenAI巩固其技术优势并拓展市场机会。

ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

华为诺亚提出的MoLE架构通过将专家输入改为embedding token,并使用查找表替代传统矩阵运算,显著降低了推理延迟和显存开销,尤其在批量解码场景中表现出优势,保持与MoE相当的性能。

免费!鹅厂最新3D生成模型火爆外网,CG导演都已经用上了

鹅厂推出的最新3D生成模型支持文/图生成3D模型和动画,用户只需上传照片即可创建个性化3D角色,且功能强大,已被广泛应用于游戏和艺术创作,完全免费,每日可生成20次。

Loading...
中科院清华快手联合提出R1-Reward模型;联想推出超级智能体;OpenAI启动「OpenAI for Countries」项目;DeepSeek开源复现性能提升26倍;Mistral Medium 3跑分对标Claude | 05月08日AI资讯

中科院清华快手联合提出R1-Reward模型;联想推出超级智能体;OpenAI启动「OpenAI for Countries」项目;DeepSeek开源复现性能提升26倍;Mistral Medium 3跑分对标Claude | 05月08日AI资讯

中科院清华快手联合提出R1-Reward模型,显著提升多模态奖励性能;联想推出超级智能体,预计端侧AI能力提升三倍;OpenAI启动「OpenAI for Countries」项目,助力各国AI发展;DeepSeek-R1实现26倍性能提升;Mistral Medium 3模型表现不佳,未超越竞争对手Claude。

瑞莱智慧CEO强调大模型安全可控;OpenAI转型公益企业;英伟达开源Llama-Nemotron;微软开源UFO²;复旦强化学习视频模型超越Sora | 05月06日AI资讯

瑞莱智慧CEO强调大模型安全可控;OpenAI转型公益企业;英伟达开源Llama-Nemotron;微软开源UFO²;复旦强化学习视频模型超越Sora | 05月06日AI资讯

瑞莱智慧CEO强调大模型的安全可控性是实现强生产力的关键;OpenAI转型为公益责任公司,仍由非营利实体控制;英伟达推出新开源模型Llama-Nemotron,优化推理效率;微软开源UFO²,标志着桌面智能进入AgentOS时代;复旦大学等机构的国产视频大模型在VDC和VBench榜单上获第一。

公告
分享AI实战与落地的知识,高效探索ChatGPT的使用方法、技巧与行业应用场景,让AI成为你手中真正的生产力!