Gemini 2.5 Pro通关《宝可梦蓝》；Perception-R1超越YOLOv3；阿里云通义点金发布DianJin-R1；微软Phi-4数学推理称王；伯克利提出睡眠时计算技术 | 05月03日AI资讯

slug

summary

大模型终于通关《宝可梦蓝》！网友：Gemini 2.5 Pro酷爆了

Gemini 2.5 Pro successfully completed Pokémon Blue during a live stream, marking a significant achievement for AI models. Despite its victory, the model struggled with navigation and understanding the game's low-resolution visuals, highlighting challenges in AI's spatial reasoning and context limitations. Google plans to continue exploring this area with further live streams.

🔗访问原文

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

Perception-R1是一个新开发的多模态开源LLM，通过强化学习显著提升视觉感知能力，突破了YOLOv3等模型的性能，专注于视觉推理、目标检测和OCR等任务，展示了在复杂视觉任务中的巨大潜力和有效性。

🔗访问原文

阿里云通义点金发布DianJin-R1金融领域推理大模型，32B模型荣膺榜首

阿里云通义点金与苏州大学合作推出DianJin-R1金融推理大模型，具备先进技术和全面数据支持，包含开源的Reasoning数据集，旨在提升金融领域的推理能力，模型表现超越行业标杆，推动金融科技智能化进程。

🔗访问原文

DeepSeek-R2尚未问世，微软小模型捡漏称王？6000样本炼出「数学作弊器」！

微软推出了新的Phi-4推理模型系列，表现优于DeepSeek-R1，尤其在数学推理上。尽管参数较少，Phi-4-mini-reasoning在多个基准测试中展现出色性能，显示出推理能力的迁移性和自我提升潜力。模型在强化学习阶段仅用6000个样本就显著提升了准确率，展示了小模型在特定任务中的强大能力。

🔗访问原文

睡觉也在卷！伯克利Letta新作「睡眠时计算」让推理效率飙升

Letta和UC伯克利提出的“睡眠时计算”技术能在空闲时间提升LLM推理效率，减少计算成本，实验显示准确率保持不变的情况下，测试时计算量可减少约5倍，性能提升最高达18%。该技术在可预测查询场景中表现更佳，并在软件工程任务中也显示出优势。

🔗访问原文

大模型终于通关《宝可梦蓝》！网友：Gemini 2.5 Pro酷爆了

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

阿里云通义点金发布DianJin-R1金融领域推理大模型，32B模型荣膺榜首

DeepSeek-R2尚未问世，微软小模型捡漏称王？6000样本炼出「数学作弊器」！

睡觉也在卷！伯克利Letta新作「睡眠时计算」让推理效率飙升

AI学长小林

交流频道

加入我们的社群讨论分享