AI日报
Gemini 2.5 Pro通关《宝可梦蓝》;Perception-R1超越YOLOv3;阿里云通义点金发布DianJin-R1;微软Phi-4数学推理称王;伯克利提出睡眠时计算技术 | 05月03日AI资讯
00 分钟
2025-5-3
2025-5-3
slug
summary
tags
icon
password

大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了

Gemini 2.5 Pro successfully completed Pokémon Blue during a live stream, marking a significant achievement for AI models. Despite its victory, the model struggled with navigation and understanding the game's low-resolution visuals, highlighting challenges in AI's spatial reasoning and context limitations. Google plans to continue exploring this area with further live streams.

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

Perception-R1是一个新开发的多模态开源LLM,通过强化学习显著提升视觉感知能力,突破了YOLOv3等模型的性能,专注于视觉推理、目标检测和OCR等任务,展示了在复杂视觉任务中的巨大潜力和有效性。

阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首

阿里云通义点金与苏州大学合作推出DianJin-R1金融推理大模型,具备先进技术和全面数据支持,包含开源的Reasoning数据集,旨在提升金融领域的推理能力,模型表现超越行业标杆,推动金融科技智能化进程。

DeepSeek-R2尚未问世,微软小模型捡漏称王?6000样本炼出「数学作弊器」!

微软推出了新的Phi-4推理模型系列,表现优于DeepSeek-R1,尤其在数学推理上。尽管参数较少,Phi-4-mini-reasoning在多个基准测试中展现出色性能,显示出推理能力的迁移性和自我提升潜力。模型在强化学习阶段仅用6000个样本就显著提升了准确率,展示了小模型在特定任务中的强大能力。

睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

Letta和UC伯克利提出的“睡眠时计算”技术能在空闲时间提升LLM推理效率,减少计算成本,实验显示准确率保持不变的情况下,测试时计算量可减少约5倍,性能提升最高达18%。该技术在可预测查询场景中表现更佳,并在软件工程任务中也显示出优势。
上一篇
MIT研究AGI失控风险超90%;Video-XL-Pro突破长视频理解极限;OpenAI推出MRCR基准测试;谷歌NotebookLM支持中文;中兴通讯突破大模型推理上限 | 05月04日AI资讯
下一篇
ICML 2025录用结果引争议;微软与OpenAI合作前景不明;DeepSeek推理性能提升20%;全球首个AI科学家天团出道;InfiGUI-R1强化学习提升GUI智能体 | 05月02日AI资讯