slug
summary
tags
icon
password
⏩成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
这篇文章介绍了李飞飞及其团队在推理模型训练方面的最新进展,强调了通过模型蒸馏技术在成本和时间上的显著优势。文章指出,该模型的训练成本低于150元,并在仅26分钟内完成,性能媲美现有的o1和R1模型。文章还提到该模型已在GitHub上开源,鼓励更多研究者和开发者参与到这一技术的应用和改进中。整体来看,这篇文章为AI领域的模型训练提供了新的思路和实践案例,具有较高的参考价值和实用性。
⏩钉钉AI助理接入DeepSeek,支持深度思考
钉钉AI助理于2025年2月6日全面接入DeepSeek系列模型,用户可以在创建AI助理时选择不同的DeepSeek模型,如R1和V3。新发布的模板使得用户能够一键创建基于DeepSeek模型的AI助理,具备深度思考和联网查询功能。此外,钉钉的低代码平台宜搭也支持DeepSeek,用户可用于数据分析和文本生成等场景。钉钉AI助理自2024年1月发布以来,已在平台上创建了50万个AI助理,并对多家大模型厂商开放,增强了用户和开发者的选择和体验。
⏩GPT-4o多模态核心大佬离职OpenAI!联创Schulman跳槽前CTO初创
本文报道了OpenAI多模态核心负责人Alexander Kirillov和联创John Schulman的离职事件,强调了他们在多模态模型GPT-4o研发中的重要性。Kirillov的离职被视为对OpenAI的重大打击,他在多模态理解和生成方面的贡献不可忽视,尤其是在Segment Anything项目中。Schulman则加入了前CTO Mira Murati创办的初创公司Thinking Machines Lab,表明了AI领域人才流动的趋势。文章详细介绍了两位研究者的背景及其在AI领域的成就,反映了当前AI行业的动态与发展。
⏩817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式
这篇文章介绍了上海交通大学的最新研究,提出了一个颠覆传统认知的观点:在数学推理领域,使用少量高质量样本(仅817条)可以显著提升模型的推理能力,超越依赖庞大数据集的主流方法。研究表明,LIMO模型在美国数学竞赛邀请赛(AIME)测试中的准确率从6.5%提升至57.1%,并在多个基准测试中表现出色,证明了高质量小规模数据的有效性。这一发现挑战了“更大数据=更强推理”的传统观念,强调了在AI推理能力突破中,方法和方向的重要性,展现了“少即是多”的潜力。
⏩微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变
本文报道了微软最新发布的All in智能体及其在软件工程领域的重大影响。新推出的自主SWE智能体(项目代号Padawan)具备主动改bug、修复错误和自主提交PR评论的能力,标志着软件工程的变革。GitHub Copilot的升级使其不仅能执行任务,还能推断额外必要任务,提升了开发者的工作效率。文章详细介绍了Copilot在代码迭代、错误识别和多文件编辑等方面的功能,强调了AI在软件开发中的重要性和未来潜力。此项技术的发布预示着AI自动化软件工程的趋势将愈加明显,开发者将迎来更高效的工作方式。
⏩架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练
本文报道了清微智能推出的可重构算力芯片RPU,旨在适配DeepSeek模型的推理和训练。随着大模型技术的普及,算力需求面临大规模、高弹性和低成本的挑战。清微智能的RPU芯片通过可重构计算架构和动态硬件重构技术,显著提升了计算资源的利用率和能效比,支持从1.5B到六千亿参数的DeepSeek全量模型。文章强调了该芯片在AI任务处理中的高效性和经济性,展示了国产AI芯片在全球市场中的竞争力和创新潜力,尤其是在大模型的本地私有化部署方面的应用。
⏩英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA
本文介绍了英伟达与MIT、清华、北大等机构联合发布的SANA 1.5模型,这是一种高效可扩展的线性扩散Transformer,专注于文本生成图像任务。SANA 1.5在模型增长策略、深度剪枝和推理时扩展策略上进行了三项创新,显著降低了训练和推理成本,同时提升了生成质量。研究表明,通过有策略地初始化额外模块,SANA 1.5能够在保持竞争力性能的同时,减少60%的训练时间。此外,模型深度剪枝技术和推理期间扩展策略的引入,使得模型在计算资源和生成质量之间实现了良好的平衡。这些创新为AI领域的文本生成图像技术提供了新的思路和方法,具有重要的研究价值和应用前景。
⏩感谢DeepSeek,ChatGPT开始公开o3思维链,但不完整
本文讨论了OpenAI对ChatGPT进行的最新更新,特别是关于o3-mini和o3-mini-high模型的思维链展示功能。尽管用户可以查看思维链的总结版本,但并未提供完整的思维链,这引发了用户的讨论和反馈。文章提到DeepSeek的竞争压力促使OpenAI进行这些更新,并指出展示完整思维链对科学研究和用户体验的重要性。此外,OpenAI还提升了ChatGPT的记忆限制,并开放了canvas共享功能。整体来看,文章深入分析了AI产品的更新及其对用户的影响,具有较高的相关性和实用性。
⏩ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
这篇文章介绍了小米新一代Kaldi语音识别算法CR-CTC,该算法在ICLR 2025上被接收。由Kaldi之父Daniel Povey领导的团队致力于开源语音技术的研发,旨在提升智能语音任务的准确性和效率。CR-CTC通过一致性正则化方法,显著提高了CTC模型的性能,使其在多个主流自动语音识别数据集上达到了新的SOTA结果。文章详细阐述了CR-CTC的实现方法,包括数据增强和一致性正则化损失的计算,展示了其在LibriSpeech等数据集上的优越表现。这项研究为语音识别领域提供了新的思路和技术路径,具有重要的学术和应用价值。
⏩将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思
本文介绍了一种新的推理方法CoMCTS,通过将集体学习引入树搜索,旨在提升多模态大语言模型(MLLM)在复杂推理任务中的表现。当前的MLLM在处理复杂问题时缺乏中间推理能力,CoMCTS通过联合多个模型的知识,协同搜索有效的推理路径,克服了传统蒙特卡罗树搜索(MCTS)方法的局限性。研究表明,CoMCTS能够有效提升推理效率和效果,最终构建了Mulberry-260K数据集,并在多个基准测试中取得显著提升。这项研究为AI推理能力的提升提供了新的思路和方法,具有重要的学术价值和应用前景。
⏩DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
本文探讨了GRPO(群组相对策略优化)在训练大型语言模型时的显存需求,尤其是在GPU资源有限的情况下。作者Greg Schoeninger分享了使用Nvidia GeForce RTX 3080进行训练的经验,指出了在微调过程中可能遇到的显存不足问题,并提供了相应的解决方案。文章详细分析了不同模型大小和训练方式对显存需求的影响,强调了全参数微调与参数高效微调(PEFT)之间的显著差异。此外,作者还讨论了8-Bit优化和梯度检查点等技术如何帮助减少内存占用,提供了实用的建议和实验数据,适合对AI训练过程有深入了解的开发者。
⏩华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
这篇文章探讨了DeepSeek-R1-Zero模型在自我反思和推理能力方面的研究,提出了关于「顿悟时刻」的全新见解。研究表明,所谓的「顿悟时刻」实际上可能在模型的基础阶段就已出现,而非后期训练的结果。文章分析了不同基础模型的表现,发现自我反思行为在Epoch 0就能被观察到,且不同模型在自我反思的表现上存在差异。此外,文章还讨论了肤浅自我反思的概念,指出并非所有自我反思都能有效改善模型的推理能力。这项研究为理解AI模型的学习机制提供了重要的理论基础,具有较高的学术价值和实用性。
⏩《麻省理工科技评论》点评中国AI“四剑客”,每家都媲美DeepSeek
这篇文章来自《麻省理工科技评论》,重点介绍了中国AI领域的四家初创公司及其在全球竞争中的崛起。文章详细分析了DeepSeek的成功及其开源模型的创新,强调了其在训练成本和性能上的优势。此外,报道还提到阶跃星辰、面壁智能、智谱AI和无问芯穹四家企业的技术实力,展示了它们在基础模型和AI基础设施方面的突破。文章指出,这些企业不仅推动了中国AI产业的发展,也在全球范围内重塑了AI竞争格局,展现了中国在人工智能领域的创新能力和潜力。
⏩突破“数据再生产陷阱”:从“语言游戏”迈向超人智能
本文探讨了人工智能领域中的一个重要进展,即通过“语言游戏”概念来突破大语言模型的“数据再生产陷阱”。作者指出,当前大语言模型在训练过程中往往陷入固定的数据循环,导致创新能力受限。为此,研究者提出通过“语言游戏”来实现模型的持续自我进化,增强其对新颖内容的接触。文章详细分析了“语言游戏”的核心机制,包括角色流动性、奖励多样性和规则可塑性,强调这些要素如何促进模型的多样化学习和创新能力。此外,文章还探讨了强化学习与“语言游戏”的结合,展现了这一新思路对AI发展的潜在影响。
⏩字节最新OmniHuman数字人模型即将上线即梦
即梦AI近日发布了全新的OmniHuman数字人模型,用户只需输入一张图片和一段音频,即可生成生动的AI视频。该模型由字节跳动自研,支持多种尺寸的图片输入,并能根据音频生成相应的动作,显著提升视频制作效率和质量。OmniHuman在手势生成方面表现优异,且对动漫和3D卡通图片的支持效果良好。尽管目前生成的影视真实级别视频仍需改进,但即梦AI计划通过小范围内测和严格的安全审核机制,确保技术的正当使用,并为视频创作者提供更好的创作工具。
⏩历史时刻:DeepSeek GitHub星数超越OpenAI,仅用时两个月
DeepSeek项目在GitHub上的Star数量超过OpenAI,标志着开源AI领域的重要里程碑。DeepSeek-V3大模型以6710亿参数和动态注意力机制优化文本生成,训练成本显著低于同类闭源模型。DeepSeek-R1基于V3提出,利用强化学习提升推理能力,改变了开源AI的训练范式。该模型支持推理能力迁移至小型模型,拓展了边缘计算的应用潜力。DeepSeek的开源策略吸引了多家云服务平台接入,推动了生成式AI的快速发展,展示了国内科研团队的创新能力和技术实力。
⏩免费功能卷翻付费版ChatGPT,欧洲AI新贵叫板OpenAI
Mistral AI推出了其全新升级的产品Le Chat,该产品在功能上提供了免费版与付费版的选择,旨在与OpenAI的ChatGPT竞争。文章探讨了Mistral AI在欧洲AI市场中的崛起及其对现有AI产品的挑战,强调了Le Chat在用户体验和功能上的创新。这一动态不仅反映了AI领域的竞争加剧,也展示了新兴企业在推动AI技术进步方面的潜力。
⏩历史分水岭:DeepSeek GitHub星数超越OpenAI!大佬揭秘仅用450美元训推理模型
本文报道了DeepSeek在GitHub上的Star数超越OpenAI的里程碑事件,标志着开源AI社区的强大影响力。DeepSeek-V3的Star数达到了7.7万,显示出用户的热情和对该项目的认可。文章详细介绍了DeepSeek的训练模型及其优化方法,特别是通过PTX编程提升底层硬件性能的创新。此外,文章澄清了关于DeepSeek-R1训练成本的误解,并探讨了DeepSeek对推理模型的影响。机器学习专家Sebastian Raschka的分析为读者提供了对DeepSeek模型构建方法的深入理解,强调了其在LLM领域的重要性和潜力。
⏩就在明天,DeepSeek专场直播!
DeepSeek App 在上线仅 20 天后,日活跃用户超过 2000 万,显示出其迅猛的增长势头。其背后的推理模型 DeepSeek-R1 被誉为国运级创新,成为全球关注的焦点。文章提到,DeepSeek-R1 的发布引发了多家云厂商和应用厂商的接入,标志着其在 AI 应用领域的重大影响。接下来的直播将探讨 DeepSeek 的未来发展及其对 AI 应用的启示,尤其是在提示词技巧方面的变化。整体来看,文章提供了对当前 AI 领域重要动态的深度分析,具有较高的实用性和前瞻性。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/192629a6-152d-807a-98d6-d4bdd9270ede
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。