发布于: 2025-7-5最后更新: 2025-7-5字数 00 分钟

slug
summary
tags
icon
password

邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷

MOSS-TTSD是一个开源的文本到语音模型,基于百万小时音频训练,能够生成高质量的对话语音,突破了AI播客的“恐怖谷”。该模型展示了与商业产品相媲美的性能,支持长达960秒的音频生成,适用于播客、影视配音等多种场景。团队还开发了高效的数据处理流水线,确保音频质量。

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

华为诺亚推出了新的编程基准HLCE,测试大语言模型在复杂编程任务中的能力。结果显示,当前顶尖模型如o4-mini和Gemini-2.5 Pro在HLCE上的通过率仅为15.85%和11.4%,表明它们在应对高难度编程问题上仍有很大提升空间。研究还发现,模型的推理能力与自我认知能力发展不一致,未来优化潜力巨大。

苹果港大终结自回归时代?7B扩散模型发布,AI写代码逻辑彻底颠覆!

苹果与港大推出DiffuCoder,利用扩散模型和强化学习提升代码生成性能4.4%。dLLM具备灵活的生成机制,打破传统自回归模型的限制,适合并行生成代码,展现出更高的多样性潜力和训练效率。新提出的Coupled-GRPO算法进一步优化了模型性能。

DeepSeek流量暴跌?AI大模型全球霸主离奇遇冷,外媒曝出真相

DeepSeek的市场份额因Token经济学和用户体验问题而下滑,尽管在第三方平台上使用量激增。与其他AI模型相比,DeepSeek的延迟较高且上下文窗口较小,导致用户流失至竞争对手。

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

Grok 4的基准测试结果泄露,HLE得分达到45%,是Gemini 2.5的两倍,GPQA得分87-88%。尽管有网友质疑其高分的真实性,但如果属实,Grok 4将显著推动AI模型的发展。马斯克正在全力开发该模型,预计不久将正式发布。

Loading...
Vozo-根据文案自动配音并编辑视频

Vozo-根据文案自动配音并编辑视频

Vozo是一个基于人工智能的视频编辑工具,允许用户通过简单提示重写、重新配音和编辑视频。它保留原音情感,实现文本编辑声音和口型同步,适合内容创作者和市场营销人员等用户。


Nature揭示14%论文含AI代写特征;DeepSeek开源R1T2模型速度提升20%;杨立昆质疑LLM认知鸿沟;英伟达市值创历史新高;小米AI眼镜首销破3万台 | 07月04日AI资讯

Nature揭示14%论文含AI代写特征;DeepSeek开源R1T2模型速度提升20%;杨立昆质疑LLM认知鸿沟;英伟达市值创历史新高;小米AI眼镜首销破3万台 | 07月04日AI资讯

研究显示,14%的生物医学论文使用AI辅助写作;DeepSeek R1T2模型速度提升20%;杨立昆质疑LLM的认知鸿沟;英伟达市值创历史新高;小米AI眼镜首销破三万台,推动市场发展。

公告
分享AI实战与落地的知识,高效探索ChatGPT的使用方法、技巧与行业应用场景,让AI成为你手中真正的生产力!