slug
summary
tags
icon
password
大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了
Gemini 2.5 Pro successfully completed Pokémon Blue during a live stream, marking a significant achievement for AI models. Despite its victory, the model struggled with navigation and understanding the game's low-resolution visuals, highlighting challenges in AI's spatial reasoning and context limitations. Google plans to continue exploring this area with further live streams.
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
Perception-R1是一个新开发的多模态开源LLM,通过强化学习显著提升视觉感知能力,突破了YOLOv3等模型的性能,专注于视觉推理、目标检测和OCR等任务,展示了在复杂视觉任务中的巨大潜力和有效性。
阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
阿里云通义点金与苏州大学合作推出DianJin-R1金融推理大模型,具备先进技术和全面数据支持,包含开源的Reasoning数据集,旨在提升金融领域的推理能力,模型表现超越行业标杆,推动金融科技智能化进程。
DeepSeek-R2尚未问世,微软小模型捡漏称王?6000样本炼出「数学作弊器」!
微软推出了新的Phi-4推理模型系列,表现优于DeepSeek-R1,尤其在数学推理上。尽管参数较少,Phi-4-mini-reasoning在多个基准测试中展现出色性能,显示出推理能力的迁移性和自我提升潜力。模型在强化学习阶段仅用6000个样本就显著提升了准确率,展示了小模型在特定任务中的强大能力。
睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
Letta和UC伯克利提出的“睡眠时计算”技术能在空闲时间提升LLM推理效率,减少计算成本,实验显示准确率保持不变的情况下,测试时计算量可减少约5倍,性能提升最高达18%。该技术在可预测查询场景中表现更佳,并在软件工程任务中也显示出优势。
上一篇
MIT研究AGI失控风险超90%;Video-XL-Pro突破长视频理解极限;OpenAI推出MRCR基准测试;谷歌NotebookLM支持中文;中兴通讯突破大模型推理上限 | 05月04日AI资讯
下一篇
ICML 2025录用结果引争议;微软与OpenAI合作前景不明;DeepSeek推理性能提升20%;全球首个AI科学家天团出道;InfiGUI-R1强化学习提升GUI智能体 | 05月02日AI资讯
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/1e8629a6-152d-813d-a456-e39c5c7b5051
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。