【AI资讯】9月25日 | 小林的博客-AI学长

slug

summary

文章讨论了大型语言模型（LLM）在规划能力上的局限性，特别是OpenAI的o1模型，尽管在某些基准测试中表现良好，但在复杂任务中仍显不足。OpenAI还推出了GPT-4o的高级语音功能，支持多语言对话。Canva利用AI技术挑战Adobe，展示了其在设计领域的快速成长。谷歌Gemini 1.5更新提升了数学能力和性能，成本显著降低，速度提升，尽管在某些测试中未超越o1系列。

⏩LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

本文探讨了大型语言模型（LLM）在规划能力方面的局限性，特别是OpenAI最新发布的o1模型。尽管o1在多个基准测试中表现出色，超越了前代模型，但在规划任务上仍显不足。研究团队使用PlanBench基准评估了o1的表现，发现其在Blocksworld测试中表现良好，但在更复杂的Mystery Blocksworld测试中则未能保持高准确率。文章指出，LLM在System 2任务中的推理能力仍需提升，o1模型的设计尝试通过强化学习和自适应推理程序来弥补这一不足。整体来看，尽管o1在某些方面取得了进展，但其规划能力仍未达到理想状态，表明LLM在智能体核心能力上的发展仍需努力。

🔗：https://www.jiqizhixin.com/articles/2024-09-24-7

⏩终于来了！OpenAI开放GPT-4o高级语音，还用中文说「对不起」

OpenAI正式推出了GPT-4o的高级语音功能，标志着其在语音交互领域的重要进展。该功能将向Plus和Team用户开放，提供自定义指令、记忆和多种新声音，支持50多种语言的流畅对话。文章提到，GPT-4o的推出经历了近半年的等待，用户对其表现表示接受。新功能还包括一个多语言大规模多任务语言理解数据集，涵盖14种语言和57个主题，进一步推动了AI在多语言处理方面的能力。尽管新功能尚未在某些地区推出，但其潜在影响力和实用性不容小觑。

🔗：https://www.jiqizhixin.com/articles/2024-09-25-3

⏩1.9 亿月活、260 亿估值的Canva，想借助 AI，挑战 2300 亿的 Adobe

这篇文章探讨了Canva的快速成长及其在设计领域的影响力，尤其是其如何利用AI技术来挑战Adobe的市场地位。Canva的CEO Melanie Perkins分享了公司从一个小型初创企业发展到全球估值260亿美元的历程，并强调了AI工具在提升设计效率方面的重要性。文章还提到Canva的用户群体从普通用户扩展到专业设计师，显示出其产品的广泛适用性。Canva通过收购AI初创公司和不断创新，力求在竞争激烈的市场中占据一席之地，展现了AI在设计行业中的潜力和未来发展方向。

🔗：http://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&mid=2247508397&idx=1&sn=3ac5fbfb2653eb995c6d4c1b1cecf8b5&chksm=c1336dbafc5b3a346f83c2c9f12e5c588c9cad7b7902415a26913afc9b52de700d1aa3fa8aa2&scene=0#rd

⏩谷歌Gemini数学反超o1预览版！成本仅1/10、无需额外思考时间，旧范式还没有死

谷歌Gemini 1.5更新显著提升了数学能力和性能，成本降低至原来的十分之一，速度提升2-3倍，延迟减少至三分之一。新模型在数学、视觉理解和代码生成方面都有显著进步，但在某些基准测试中仍未超越o1系列。开发者可通过Google AI Studio和Gemini API免费访问新模型。

🔗：http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247750985&idx=3&sn=ef163d9affe1188180531449a0b3c99f&chksm=e93bec903c20819a740a1eae0628720e3bdf9d871014ab1c27f0bac42c2a481247fce53c3887&scene=0#rd

⏩LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

⏩终于来了！OpenAI开放GPT-4o高级语音，还用中文说「对不起」

⏩1.9 亿月活、260 亿估值的Canva，想借助 AI，挑战 2300 亿的 Adobe

⏩谷歌Gemini数学反超o1预览版！成本仅1/10、无需额外思考时间，旧范式还没有死

AI学长小林

交流频道

加入我们的社群讨论分享