AI日报
阿里Qwen3登顶全球最强开源模型;谷歌Gemini 2.5 Pro技术揭秘;DeepSeek V3推理能力突破;AI工具DFloat11无损压缩;麦肯锡推出内网版ChatGPT | 04月29日AI资讯
00 分钟
2025-4-29
2025-4-29
slug
summary
tags
icon
password

Qwen3 发布,第一时间详解:性能、突破、训练方法、版本迭代...

Qwen3 发布,第一时间详解:性能、突破、训练方法、版本迭代...

Qwen3发布了,包含MoE和Dense两种架构,旗舰模型Qwen3-235B-A22B在基准测试中超越DeepSeek R1。新版本引入了思考模式与非思考模式的无缝切换,支持119种语言,训练数据达到36万亿tokens,显著提升了推理能力和代码能力。

52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解

谷歌Gemini 2.5 Pro在大模型竞争中取得突破,预训练负责人Vlad Feinberg分享了模型训练中的关键技术,强调计算资源的合理利用、推理效率和知识蒸馏等方法,以优化模型性能和降低推理成本。

不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门

DeepSeek V3-0324的基础上,德国团队TNG推出了新模型R1T-Chimera,结合了R1和V3的优点,推理速度更快,能在101秒内解决复杂问题,展现出更紧凑的思考过程。模型融合可能成为2025年的技术趋势。

模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了

研究者提出DFloat11无损压缩框架,可将大型语言模型压缩至原始大小的70%,同时保持100%准确率,显著提升推理效率,支持更长生成序列,解决了资源受限环境中的部署难题。实验表明,DFloat11在多个主流模型上表现优异。

100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事

咨询行业正在快速采用AI技术,麦肯锡推出内部版本的ChatGPT(Lilli),使70%的员工每周使用该工具。其他公司如BCG和德勤也在开发AI工具以提升工作效率,AI正逐渐成为行业的核心战略能力。
上一篇
百度智能云推动AI产业化;阿里云发布Qwen3开源模型;无问芯穹开源推理加速神器;AI操控舆论能力引争议;UC伯克利研究无思考推理模型 | 04月29日AI资讯
下一篇
Perplexity推出Comet浏览器;谷歌Gemini 2.5 Pro突破;DeepSeek V3推理速度提升;麦肯锡内网版ChatGPT普及;阶跃星辰开源Step1X-Edit | 04月28日AI资讯