slug
summary
tags
icon
password
Qwen3 发布,第一时间详解:性能、突破、训练方法、版本迭代...
Qwen3 发布,第一时间详解:性能、突破、训练方法、版本迭代...
Qwen3发布了,包含MoE和Dense两种架构,旗舰模型Qwen3-235B-A22B在基准测试中超越DeepSeek R1。新版本引入了思考模式与非思考模式的无缝切换,支持119种语言,训练数据达到36万亿tokens,显著提升了推理能力和代码能力。
52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解
谷歌Gemini 2.5 Pro在大模型竞争中取得突破,预训练负责人Vlad Feinberg分享了模型训练中的关键技术,强调计算资源的合理利用、推理效率和知识蒸馏等方法,以优化模型性能和降低推理成本。
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
DeepSeek V3-0324的基础上,德国团队TNG推出了新模型R1T-Chimera,结合了R1和V3的优点,推理速度更快,能在101秒内解决复杂问题,展现出更紧凑的思考过程。模型融合可能成为2025年的技术趋势。
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
研究者提出DFloat11无损压缩框架,可将大型语言模型压缩至原始大小的70%,同时保持100%准确率,显著提升推理效率,支持更长生成序列,解决了资源受限环境中的部署难题。实验表明,DFloat11在多个主流模型上表现优异。
100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
咨询行业正在快速采用AI技术,麦肯锡推出内部版本的ChatGPT(Lilli),使70%的员工每周使用该工具。其他公司如BCG和德勤也在开发AI工具以提升工作效率,AI正逐渐成为行业的核心战略能力。
上一篇
百度智能云推动AI产业化;阿里云发布Qwen3开源模型;无问芯穹开源推理加速神器;AI操控舆论能力引争议;UC伯克利研究无思考推理模型 | 04月29日AI资讯
下一篇
Perplexity推出Comet浏览器;谷歌Gemini 2.5 Pro突破;DeepSeek V3推理速度提升;麦肯锡内网版ChatGPT普及;阶跃星辰开源Step1X-Edit | 04月28日AI资讯
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/1e4629a6-152d-8155-b15a-c7a073a6d3db
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。