百度数字人直播爆卖5500万；DeepMind强化学习微调缩小知行差距；华为发布盘古大模型5.5；苹果或140亿美元收购Perplexity；上海交大7B智能体超越Deepseek-R1 | 06月21日AI资讯

slug

summary

罗永浩的数字人直播在618活动中创下5500万销售记录；DeepMind通过强化学习微调缩小知行差距；华为发布盘古大模型5.5，推动产业智能化；苹果考虑以140亿美元收购AI初创公司Perplexity；上海交大7B智能体通过9个任务训练超越Deepseek-R1，标志着AI自主学习新范式。

假老罗打败真老罗？618一夜爆卖5500万！真相揭穿网友傻眼

罗永浩的数字人直播在618活动中创下5500万的销售记录，超越了他的真人直播。背后是百度的多模协同数字人技术，使得数字人具备高度拟真性和互动能力，预计未来数字人直播将广泛应用于电商等领域，市场规模将在2026年突破百亿。

🔗访问原文

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

研究表明，强化学习微调（RLFT）可以通过优化自我生成的推理链来提升大语言模型的决策能力，缩小知行差距，但仍需改进探索策略。模型在决策时常因贪婪性和频率偏差而未能充分利用其知识，导致探索不足。实验结果显示，尽管模型在推理上表现良好，但在实际行动中仍偏向于贪婪选择，影响了决策效果。

🔗访问原文

刚刚，华为盘古大模型5.5问世！推理、智能体能力大爆发

华为发布了盘古大模型5.5，强调自然语言处理和多模态能力，包含多个基础模型，推动产业智能化升级，具备高效推理和深度研究能力，适用于科学计算、工业预测和智能驾驶等领域。

🔗访问原文

外媒：苹果内部讨论买Perplexity，140亿美元史上最大收购？

苹果公司高管正在讨论收购AI初创公司Perplexity，可能成为其历史上最大规模的收购，估值高达140亿美元。Perplexity在AI搜索领域具有强大的技术优势，能够整合多种信息源，帮助苹果改进Siri和Safari浏览器，减少对谷歌的依赖。尽管有收购传闻，Perplexity表示目前没有相关谈判。

🔗访问原文

7B智能体仅凭9个任务训练即超越R1！上交大打造AI-for-AI新范式

上海交通大学的研究表明，7B参数的AI智能体通过“经验学习”在仅9个任务上训练，成功超越了671B的Deepseek-R1，标志着AI自主学习的新范式，减少了人类干预，加速了AGI的发展进程。

🔗访问原文

假老罗打败真老罗？618一夜爆卖5500万！真相揭穿网友傻眼

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

刚刚，华为盘古大模型5.5问世！推理、智能体能力大爆发

外媒：苹果内部讨论买Perplexity，140亿美元史上最大收购？

7B智能体仅凭9个任务训练即超越R1！上交大打造AI-for-AI新范式

AI学长小林

交流频道

加入我们的社群讨论分享