斯坦福手搓Llama超级内核推理仅需0.00068秒；AI科学家Zochi在ACL博士毕业；华为攻克AI推理提速60%；DeepSeek R1模型升级直追OpenAI o3；可灵2.1上线价格降65% | 05月29日AI资讯

slug

summary

斯坦福推出的Megakernel推理引擎实现Llama-1B模型推理时间仅0.00068秒；AI系统Zochi成功在ACL会议上发表论文，提出有效的安全防护框架；华为的新方法提升大模型推理速度60%；DeepSeek R1新版性能接近OpenAI o3；可灵2.1上线，价格降65%并提升生成效果。

斯坦福Hazy实验室推出的Megakernel推理引擎将Llama-1B模型的前向传播集成到单个GPU内核中，实现推理时间低于0.00068秒，速度比传统引擎快3.5倍，显著提高了GPU的带宽利用率和性能。该技术展示了低延迟推理的潜力。

AI系统Zochi独立完成从假设到论文的全过程，成功发表在ACL 2025会议上。其研究提出的Tempest框架通过多轮对话有效突破大模型的安全防线，成功率高达97%。该方法利用树搜索技术逐步引导模型泄露敏感信息，警示AI安全需关注长期交互中的潜在风险。

华为提出S-GRPO方法，通过串行分组和衰减奖励机制，显著提高大模型推理速度60%并提升准确率，解决冗余思考问题，适用于后训练优化阶段。实验结果显示，该方法在多个推理基准上超越现有模型，兼顾效率和准确性。

DeepSeek的R1新版在性能上接近OpenAI的o3，具备更强的推理和编程能力，能够处理复杂问题并提供创意解决方案，标志着开源技术的一次重要胜利。新模型已在HuggingFace发布。

可灵2.1正式上线，价格降低65%，提供更快、更高效的生成效果。新版本分为标准版、高品质版和大师版，满足不同创作需求，适合短视频和商业级制作。整体性价比提升，让更多用户能够轻松使用AI生成视频。

AI学长小林