北大推出PHYBench测试AI物理能力；DeepSeek-Prover-V2刷新数学推理记录；英伟达UIUC扩展模型上下文至400万token；Meta被曝作弊刷分；OpenAI增强tool use能力 | 05月01日AI资讯

slug

summary

北大出手，物理学院天才们教AI「做人」！PHYBench成大模型物理能力试金石

北大物理学院推出PHYBench基准，评估大语言模型在物理推理能力上的表现，涵盖多个物理领域的500个问题，旨在解决现有基准测试的不足，促进AI在真实物理场景中的理解与应用。测试结果显示，当前模型的表现仍显著低于人类水平。

🔗访问原文

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek的新模型Prover-V2在数学定理证明方面取得重大突破，成功解决了普特南测试中49道题目，并发现了671B模型未能掌握的新技能。该模型通过强化学习和子目标分解的方式，显著提升了推理能力，成为当前形式化数学领域的领先者。

🔗访问原文

400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能

英伟达与UIUC的研究团队提出了一种高效训练方法，将大语言模型的上下文长度扩展至400万token，显著提升了长上下文任务的性能，同时在标准任务中保持竞争力，展示了超长上下文建模的新标杆。

🔗访问原文

AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥

LMArena排行榜被指控存在操控，斯坦福和MIT研究者揭露Meta等公司利用暗箱操作提升排名，导致数据不平等和模型表现偏见。LMArena回应称指控不实，并强调其政策透明。Karpathy建议使用OpenRouterAI作为新评测平台。

🔗访问原文

o3解读：OpenAI发力tool use，Manus们会被模型取代吗？

OpenAI发布的o3和o4-mini模型增强了tool use能力，o3接近理想的agent，支持多模态推理和代码执行。与Manus等产品相比，o3在任务完成速度和效果上表现更佳，但在视觉推理和编程能力上仍有不足。Codex CLI的推出旨在普及AI编程能力，提升用户体验和市场竞争力。整体来看，o3的进步可能会影响专用Agent产品的技术壁垒。

🔗访问原文

北大出手，物理学院天才们教AI「做人」！PHYBench成大模型物理能力试金石

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能

AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥

o3解读：OpenAI发力tool use，Manus们会被模型取代吗？

AI学长小林

交流频道

加入我们的社群讨论分享