slug
summary
tags
icon
password
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型
DeepSeek-OCR是一个新型的开源模型,不仅具备传统OCR功能,还能将复杂的文本和图表压缩为图像,从而提高长文本处理的效率。其创新的'上下文光学压缩'方法使得AI能够更有效地管理和回忆信息,模拟人类的遗忘机制,具有显著的压缩比和高识别准确率,展现了AI在信息处理上的新范式。
Embedding黑箱成为历史!这个新框架让模型'先解释,再学Embedding'
GRACE框架通过让模型先生成解释性推理,再学习嵌入,克服了传统对比学习的黑箱问题。该框架包含生成式思维链、可解释表征和奖励驱动的学习目标,显著提升了模型在多个任务上的表现,同时保持了生成能力和高可解释性。研究显示,GRACE在多项数据集上超越了传统方法,推动了嵌入模型向可审查的透明表征转变。
清华、快手提出AttnRL:让大模型用'注意力'探索
清华和快手的研究团队提出了AttnRL框架,通过引入注意力机制来提升过程监督强化学习的效率与性能。该方法解决了传统强化学习在探索效率和训练成本上的瓶颈,采用基于注意力的分支策略和自适应采样机制,显著提高了模型在数学推理任务上的准确率和训练效率。AttnRL的创新探索方式使得模型能够更快找到高质量的推理路径,为未来的可解释性和强化学习研究开辟了新方向。
豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文
字节跳动的ByteRobust训练基础设施旨在提高大型语言模型的训练效率,减少故障对训练的影响。该系统通过实时监控、故障诊断和自动容错机制,优化了训练过程,显著提高了有效训练时间比率(ETTR)。ByteRobust已在实际生产中部署,成功识别了大量故障并实现了快速恢复,提升了训练效率。
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Jason Wei提出了理解2025年AI发展的三个关键思想:智能商品化、验证者定律和智能的锯齿状边缘。智能商品化意味着获取知识的成本将趋近于零,验证者定律强调任务的可验证性与AI解决能力的关系,而锯齿状边缘则指出AI在不同任务上的能力提升不均衡,表现出不同的进步速度。
AI Agent的'祛魅与归真':当超级智能体开始懂行|甲子光年
AI Agent正经历从通才向专才的转变,市场关注点从模型规模转向业务理解。企业对AI Agent的期望是其能独立执行任务并提升效率,而非仅仅作为工具。成功的AI Agent需要深入业务流程,具备复杂判断能力,并能够将模糊的业务经验转化为可操作的知识。众安信科通过构建'业务-知识-模型'闭环,推动AI Agent的实际应用,强调长期陪跑和咨询级理解的重要性,以实现企业的业务价值和增长。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/294629a6-152d-8160-9c11-f93bfce194f9
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。