slug
summary
tags
icon
password
2025 年大模型盘点:DeepSeek 时刻、Llama 失宠、刷榜泛滥...
2025年大模型领域的主要发展包括DeepSeek R1的发布,强调了推理模型和新方法RLVR与GRPO的应用。R1以开源权重发布,训练成本显著降低,推动了大模型的研究和开发。未来趋势包括RLVR的扩展、推理时的优化以及工具调用的普及。尽管Llama系列失宠,Qwen等新模型崛起,行业对私有数据的需求增加,预计2026年将看到更多创新和改进。
人均1个亿!黄仁勋拟砸下30亿美元,「买断」OpenAI昔日劲敌
英伟达计划以20亿至30亿美元收购AI21 Labs,标志着AI行业的竞争从模型训练转向推理与系统整合。AI21 Labs曾是以色列AI领域的重要参与者,但在ChatGPT发布后逐渐被边缘化。此次收购不仅是技术并购,更是对人才的收购,反映出市场对高效推理技术的需求。
2025最后一天,Kimi杨植麟发内部信:我们手里还有100亿现金
杨植麟在内部信中透露,月之暗面(Kimi)当前现金超过100亿元,近期完成5亿美元C轮融资,估值达43亿美元。2025年,付费用户月增速达170%,预计年末用户数可达170万,单月营收可能接近1亿元。公司计划在2026年前确定新模型和产品的奖励方案,目标是超越前沿公司成为全球领先的AGI公司。
端侧翻译新标杆:腾讯混元1.5开源,1.8B模型离线运行,效果超主流商用API
腾讯混元推出开源翻译模型1.5,支持端侧部署和离线实时翻译,效果超越主流商用API。模型在多个翻译测试集中表现优异,推理速度快,仅需0.18秒处理50个tokens。通过集成知识蒸馏和群体相对策略优化,提升翻译质量和效率,具备强大的术语库自定义能力和上下文理解能力。
DeepMind内部视角揭秘!Scaling Law没死,算力即一切
DeepMind的研究员探讨了算力在AI发展中的核心作用,认为Scaling Law依然有效,AGI的实现仍在路上。尽管外界对Scaling Law的质疑,算力的指数增长推动了AI模型能力的提升。2025年,AI的进步显示出算力不仅是燃料,更是催生智能的关键因素。
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计
无问芯穹与多所高校合作推出高效通信库FUSCO,旨在解决MoE模型中的通信瓶颈。FUSCO通过将通信与数据布局协同优化,显著提升了通信效率,最高可比现有库提升3.84倍。实验表明,FUSCO在训练和推理任务中均表现出色,能够有效降低延迟并提升吞吐量,为大规模智能体应用提供了强有力的支持。
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
LoPA是一种新型的解码算法,由上海交通大学与华为联合研发,显著提升了扩散大语言模型的推理速度和并行度。实验表明,LoPA将D2F-Dream的单步生成Token数提升至10.1,系统在华为Ascend 910C平台上实现了1073.9 tokens/s的吞吐量。该算法无需训练,采用前瞻并行解码机制,突破了传统方法的效率瓶颈。
上一篇
DeepSeek发布mHC新架构开启AI模型新篇章;英伟达收购Groq和AI21 Labs形成推理闭环;Sam Altman脑机接口公司Merge Labs与中国格式塔科技竞争 | 01月02日AI资讯
下一篇
AI资讯-12月31日
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/2db629a6-152d-81d2-8343-ccdce398d98e
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。