腾讯混元开源MixGRPO；蚂蚁多智能体开源新进展；谷歌Gemini 2.5 Deep Think发布；Deep Cogito开源671B模型；PPIO推出Agent沙箱 | 08月02日AI资讯

slug

summary

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

MixGRPO是一种新型训练框架，通过结合随机微分方程（SDE）和常微分方程（ODE），显著提高图像生成的效率和性能，训练时间减少近50%。MixGRPO-Flash进一步将训练时间降低71%。该方法在多个维度上优于DanceGRPO，优化了人类偏好对齐，并通过滑动窗口策略调度去噪步骤，确保奖励计算的准确性。研究团队希望MixGRPO能推动图像生成领域的进一步研究。

🔗访问原文

6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源

在2025年IMO比赛中，AWorld项目团队在仅6小时内复现并开源了DeepMind的5/6道解题结果，展示了多智能体协同的优势。通过角色分工和动态构建高质量输入，多智能体系统能够超越单一模型的能力，解决复杂的IMO级数学题。AWorld的实验表明，多智能体协作可能是实现更高群体智能的有效路径，并正在为下一代模型的训练提供支持。

🔗访问原文

刚刚，谷歌奥数金牌Gemini 2.5 Deep Think发布！多智能体推理碾压Grok 4、o3

谷歌发布了Gemini 2.5 Deep Think，主打多智能体推理，显著提升AI推理的精准性。该模型在2025年国际数学奥林匹克中获金牌，并在多个基准测试中超越竞争对手。Gemini 2.5支持多种输入类型，最大上下文窗口长度可达100万tokens，输出长度可达192Ktokens，具备更强的工具整合能力和响应能力。

🔗访问原文

一个模型超了DeepSeek R1、V3，参数671B，成本不到350万美元

Deep Cogito推出了四款开源混合推理模型，其中最大规模的671B MoE模型性能超越了DeepSeek R1和V3，训练成本不足350万美元。该模型采用迭代蒸馏与增强技术，能够在推理过程中自我改进，提升智能直觉。用户可通过Huggingface等平台下载和使用这些模型，Deep Cogito的目标是构建能够不断自我提升的AI系统。

🔗访问原文

这家AI Infra公司为什么做了一个“中国版的E2B”？｜甲子光年

PPIO在2025世界人工智能大会上推出了兼容E2B接口的Agent沙箱，旨在为开发者提供安全、快速的Agent运行环境。该平台结合了分布式GPU云、模型服务和高效的算力供应，满足了Agent在安全性、可靠性和性能上的需求。PPIO的技术基因源于其创始人在分布式计算领域的经验，使其在AI基础设施市场中占据了先机，推动了Agent生态的发展。

🔗访问原文

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源

刚刚，谷歌奥数金牌Gemini 2.5 Deep Think发布！多智能体推理碾压Grok 4、o3

一个模型超了DeepSeek R1、V3，参数671B，成本不到350万美元

这家AI Infra公司为什么做了一个“中国版的E2B”？｜甲子光年

AI学长小林

交流频道

加入我们的社群讨论分享