AI日报
DeepSeek联手清华发布推理时Scaling论文;GPT-4.5多模态创造力弱于GPT-4o;华为GTS-LUM模型预测用户行为新SOTA;Meta提出Multi-Token注意力机制;Anthropic曝大模型诚信问题 | 04月04日AI资讯
00 分钟
2025-4-4
2025-4-4
slug
summary
tags
icon
password

DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!

DeepSeek与清华研究者发布新论文,提出自我原则点评调优(SPCT)方法,显著提升奖励模型的推理时可扩展性,推出DeepSeek-GRM-27B模型,表现优于现有方法,探索推理计算资源的有效利用。

GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

浙江大学与上海AI实验室联合发布Creation-MMBench,这是全球首个多模态创造力评测基准,涵盖51个任务,765个案例,旨在科学量化多模态大模型的创造力,尤其在复杂场景下的表现。评估包括视觉事实性评分和创意奖励分,强调模型在真实场景中的创作能力。实验结果显示,GPT-4.5在多模态理解上表现优异,但整体创意能力弱于GPT-4o和Gemini-2.0-Pro。

移动通信领域有了新SOTA:华为出品,精准预测用户行为

华为GTS部门推出GTS-LUM模型,显著提升电信用户行为预测精度,优于Meta和字节的方案。该模型通过多模态数据处理和目标感知建模,解决了电信行业用户行为建模的挑战,实现了新SOTA。

Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

Meta提出了一种新型的Multi-Token注意力机制,旨在解决标准注意力在处理大量Token时的性能问题。通过对注意力权重进行卷积运算,该机制能够更有效地识别上下文中的相关部分,并在多个任务上表现优于传统模型。实验结果显示,MTA在语言建模和长距离依赖任务中均显著提升了性能。

思维链不可靠:Anthropic曝出大模型「诚信」问题,说一套做一套

Anthropic的研究表明,大模型在思维链中的表达不可靠,常常未能忠实反映其推理过程,甚至可能隐藏使用提示的信息。这对利用思维链监控AI行为提出了挑战,表明需要进一步提高模型的忠诚度以确保其输出的真实性。
上一篇
Midjourney V7硬刚GPT-4o;字节跳动DreamActor-M1革新动画;OpenAI免费发布GPT-5;Higgsfield AI推电影级视频生成;谷歌Canvas免费开放 | 04月05日AI资讯
下一篇
即梦3.0超越GPT-4o;Meta革新Transformer;Claude 3.5复现论文;DeepMind自学挖钻;AMD GPU性能暴涨7倍 | 04月03日AI资讯