slug
summary
tags
icon
password
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
GPT-5在新的SWE-BENCH PRO基准测试中表现不佳,整体解决率仅为23.3%,但在已提交任务中准确率达到63.1%,显著高于Claude Opus 4.1的31%。新测试集旨在避免数据污染,包含更复杂的问题,反映真实开发场景的挑战。
奥特曼预告ChatGPT新产品!Pro会员也要额外收费,这次不计成本投入算力
OpenAI计划在未来五年内投入约1000亿美元用于租用备用服务器,以应对计算能力短缺的问题。随着ChatGPT的强劲增长,OpenAI的收入预计将从去年的40亿美元增长到130亿美元。新产品将是计算密集型,但Pro用户可能需要额外收费。
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
北京大学与字节团队提出了BranchGRPO,一种新型树形强化学习方法,通过分叉与剪枝机制提升扩散模型的采样效率与稳定性。该方法在图像对齐和视频生成任务中表现出色,迭代时间提高近5倍,同时保持高对齐效果。
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
CaT(Compute as Teacher)方法通过将推理计算转化为监督信号,解决了后训练中缺乏标注的问题,显著提升了多个模型在不可验证领域的性能。该方法不需要人工标注,适用于数学推理、医疗咨询和创意写作等任务。
LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收
LeCun提出的JEPA方法通过在嵌入空间进行预测,显著提升了大语言模型的训练效果。LLM-JEPA结合了文本和代码的多视角学习,展现出强大的生成能力和鲁棒性,实验证明其性能超越传统训练目标,且在多个主流模型和数据集上均表现优异。
比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升
研究团队提出了一种创新的神经-符号框架,通过结合大语言模型和答案集编程,显著提升了空间推理的准确率。该框架采用自动迭代反馈循环,解决了逻辑推理中的错误问题,使推理过程透明可追溯。
上一篇
英伟达千亿美元投资OpenAI;DeepSeek-V3.1终极版发布;Qwen开源图像编辑模型;快手生成式强化学习提升广告收入;苹果统一视觉模态ATOKEN | 09月23日AI资讯
下一篇
AI资讯-09月21日
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/276629a6-152d-81a6-bc25-c60363d6eda6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。