null | NotionNext BLOG

slug

summary

阿里发布Qwen3模型，超越DeepSeek R1，支持119种语言；谷歌Gemini 2.5 Pro优化计算资源和推理效率；DeepSeek V3引入深度思考，推理速度显著提升；DFloat11无损压缩框架可将模型压缩至70%大小，保持100%准确率；麦肯锡推出内网版ChatGPT，推动AI在咨询行业的应用。

Qwen3 发布，第一时间详解：性能、突破、训练方法、版本迭代...

Qwen3发布了，包含MoE和Dense两种架构，旗舰模型Qwen3-235B-A22B在基准测试中超越DeepSeek R1。新版本引入了思考模式与非思考模式的无缝切换，支持119种语言，训练数据达到36万亿tokens，显著提升了推理能力和代码能力。

🔗访问原文

52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解

谷歌Gemini 2.5 Pro在大模型竞争中取得突破，预训练负责人Vlad Feinberg分享了模型训练中的关键技术，强调计算资源的合理利用、推理效率和知识蒸馏等方法，以优化模型性能和降低推理成本。

🔗访问原文

不用等R2了！第三方给新版DeepSeek V3添加深度思考，推理101秒破解7米甘蔗过2米门

DeepSeek V3-0324的基础上，德国团队TNG推出了新模型R1T-Chimera，结合了R1和V3的优点，推理速度更快，能在101秒内解决复杂问题，展现出更紧凑的思考过程。模型融合可能成为2025年的技术趋势。

🔗访问原文

模型压缩到70%，还能保持100%准确率，无损压缩框架DFloat11来了

研究者提出DFloat11无损压缩框架，可将大型语言模型压缩至原始大小的70%，同时保持100%准确率，显著提升推理效率，支持更长生成序列，解决了资源受限环境中的部署难题。实验表明，DFloat11在多个主流模型上表现优异。

🔗访问原文

100年企业知识超10万文件，「内网版ChatGPT」血洗最卷行业！全员70%和AI共事

咨询行业正在快速采用AI技术，麦肯锡推出内部版本的ChatGPT（Lilli），使70%的员工每周使用该工具。其他公司如BCG和德勤也在开发AI工具以提升工作效率，AI正逐渐成为行业的核心战略能力。

🔗访问原文

Qwen3 发布，第一时间详解：性能、突破、训练方法、版本迭代...

Qwen3 发布，第一时间详解：性能、突破、训练方法、版本迭代...

52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解

不用等R2了！第三方给新版DeepSeek V3添加深度思考，推理101秒破解7米甘蔗过2米门

模型压缩到70%，还能保持100%准确率，无损压缩框架DFloat11来了

100年企业知识超10万文件，「内网版ChatGPT」血洗最卷行业！全员70%和AI共事

AI学长小林

交流频道

加入我们的社群讨论分享