上交大开源MOSS-TTSD突破AI播客恐怖谷；华为诺亚推出HLCE编程基准；苹果港大发布DiffuCoder颠覆代码生成；DeepSeek流量暴跌引关注；Grok4跑分曝光引争议 | 07月05日AI资讯

slug

summary

MOSS-TTSD开源文本到语音模型突破AI播客恐怖谷，华为诺亚推出HLCE编程基准显示顶尖模型通过率低，苹果与港大发布DiffuCoder提升代码生成性能，DeepSeek因用户体验问题流量下滑，Grok4跑分曝光引发争议。

邱锡鹏团队开源MOSS-TTSD！百万小时音频训练，突破AI播客恐怖谷

MOSS-TTSD是一个开源的文本到语音模型，基于百万小时音频训练，能够生成高质量的对话语音，突破了AI播客的“恐怖谷”。该模型展示了与商业产品相媲美的性能，支持长达960秒的音频生成，适用于播客、影视配音等多种场景。团队还开发了高效的数据处理流水线，确保音频质量。

🔗访问原文

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

华为诺亚推出了新的编程基准HLCE，测试大语言模型在复杂编程任务中的能力。结果显示，当前顶尖模型如o4-mini和Gemini-2.5 Pro在HLCE上的通过率仅为15.85%和11.4%，表明它们在应对高难度编程问题上仍有很大提升空间。研究还发现，模型的推理能力与自我认知能力发展不一致，未来优化潜力巨大。

🔗访问原文

苹果港大终结自回归时代？7B扩散模型发布，AI写代码逻辑彻底颠覆！

苹果与港大推出DiffuCoder，利用扩散模型和强化学习提升代码生成性能4.4%。dLLM具备灵活的生成机制，打破传统自回归模型的限制，适合并行生成代码，展现出更高的多样性潜力和训练效率。新提出的Coupled-GRPO算法进一步优化了模型性能。

🔗访问原文

DeepSeek流量暴跌？AI大模型全球霸主离奇遇冷，外媒曝出真相

DeepSeek的市场份额因Token经济学和用户体验问题而下滑，尽管在第三方平台上使用量激增。与其他AI模型相比，DeepSeek的延迟较高且上下文窗口较小，导致用户流失至竞争对手。

🔗访问原文

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

Grok 4的基准测试结果泄露，HLE得分达到45%，是Gemini 2.5的两倍，GPQA得分87-88%。尽管有网友质疑其高分的真实性，但如果属实，Grok 4将显著推动AI模型的发展。马斯克正在全力开发该模型，预计不久将正式发布。

🔗访问原文

邱锡鹏团队开源MOSS-TTSD！百万小时音频训练，突破AI播客恐怖谷

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

苹果港大终结自回归时代？7B扩散模型发布，AI写代码逻辑彻底颠覆！

DeepSeek流量暴跌？AI大模型全球霸主离奇遇冷，外媒曝出真相

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

AI学长小林

交流频道

加入我们的社群讨论分享