AI日报
【AI资讯】1月25日
00 分钟
2025-1-25
2025-1-25
slug
summary
tags
icon
password

⏩人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者

这篇文章报道了由Scale AI和Center for AI Safety(CAIS)联合推出的基准测试「人类最后一次考试」(HLM),旨在评估AI模型的知识推理能力。测试包含3000个问题,由数百位专家设计,结果显示顶尖语言模型的准确率低于10%。文章详细介绍了测试的结构,包括精确匹配题和选择题,并强调了测试的多模态特性。为了确保问题的高质量,HLE设立了奖金池以吸引专家提交问题,并经过严格的筛选和审核流程。研究结果表明,当前的AI模型在复杂推理任务上仍显不足,反映出AI能力评估的挑战和未来发展的方向。
 

⏩浙大通义联手推出慢思考长文本生成框架OmniThink,让AI写作突破知识边界

浙大通义推出的OmniThink框架旨在突破AI写作中的知识边界,提升生成内容的深度和原创性。该框架通过模拟人类的反思与扩展过程,结合知识增强技术,系统地获取信息、构建文章大纲并生成高质量长文本。OmniThink的工作流程包括信息获取、文章大纲构建和文章创作三个部分,强调动态反思和信息整合,避免内容重复和片段化。该框架适用于综述写作、新闻报道等多种场景,具有重要的应用价值和创新性,标志着AI写作技术的进一步发展。
 

⏩英伟达RTX 5090评测解禁,天赋都点在了 AI 上

本文对英伟达最新发布的GeForce RTX 5090显卡进行了详细评测,强调其基于Blackwell架构的强大性能和32GB显存。RTX 5090支持新一代DLSS 4多帧生成技术,承诺在4K游戏中实现显著的帧率提升,甚至在某些情况下可提升8倍以上。尽管其功耗高达575W,售价1999美元,但其双槽设计和新的散热系统使其在小型机箱中更具灵活性。文章还提到,尽管RTX 5090在纯算力上的提升不如前代显著,但其软件技术的进步可能更为重要,预示着未来游戏性能的潜力。
 

⏩年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

本文介绍了ByteDance Research发布的第二代视频理解大模型Tarsier2,该模型在视频描述领域表现出色,能够细致捕捉视频中的人物动作和情节发展。Tarsier2通过预训练和后训练两个阶段,利用海量的互联网视频-文本数据进行训练,提升了模型对时序信息和视觉特征的关注度。文章详细阐述了模型的训练流程和数据筛选方法,并在多个视频理解基准上进行了性能测试,显示出其在视频描述和问答任务上的优越表现。Tarsier2的发布标志着视频理解技术的重大进步,具有广泛的应用潜力。
上一篇
【AI资讯】1月26日
下一篇
【AI资讯】1月24日