AI日报
北大推出PHYBench测试AI物理能力;DeepSeek-Prover-V2刷新数学推理记录;英伟达UIUC扩展模型上下文至400万token;Meta被曝作弊刷分;OpenAI增强tool use能力 | 05月01日AI资讯
00 分钟
2025-5-1
2025-5-1
slug
summary
tags
icon
password

北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石

北大物理学院推出PHYBench基准,评估大语言模型在物理推理能力上的表现,涵盖多个物理领域的500个问题,旨在解决现有基准测试的不足,促进AI在真实物理场景中的理解与应用。测试结果显示,当前模型的表现仍显著低于人类水平。

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek的新模型Prover-V2在数学定理证明方面取得重大突破,成功解决了普特南测试中49道题目,并发现了671B模型未能掌握的新技能。该模型通过强化学习和子目标分解的方式,显著提升了推理能力,成为当前形式化数学领域的领先者。

400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能

英伟达与UIUC的研究团队提出了一种高效训练方法,将大语言模型的上下文长度扩展至400万token,显著提升了长上下文任务的性能,同时在标准任务中保持竞争力,展示了超长上下文建模的新标杆。

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

LMArena排行榜被指控存在操控,斯坦福和MIT研究者揭露Meta等公司利用暗箱操作提升排名,导致数据不平等和模型表现偏见。LMArena回应称指控不实,并强调其政策透明。Karpathy建议使用OpenRouterAI作为新评测平台。

o3解读:OpenAI发力tool use,Manus们会被模型取代吗?

OpenAI发布的o3和o4-mini模型增强了tool use能力,o3接近理想的agent,支持多模态推理和代码执行。与Manus等产品相比,o3在任务完成速度和效果上表现更佳,但在视觉推理和编程能力上仍有不足。Codex CLI的推出旨在普及AI编程能力,提升用户体验和市场竞争力。整体来看,o3的进步可能会影响专用Agent产品的技术壁垒。
上一篇
ICML 2025录用结果引争议;微软与OpenAI合作前景不明;DeepSeek推理性能提升20%;全球首个AI科学家天团出道;InfiGUI-R1强化学习提升GUI智能体 | 05月02日AI资讯
下一篇
Meta推出独立AI助手融合社交元素;DeepSeek开源671B参数模型;清华吸引前DeepMind科学家;阿里妈妈发布世界知识大模型;Qwen 3开源战略破局 | 04月30日AI资讯