slug
summary
tags
icon
password
超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
Meta开源的DepthLM证明了视觉语言模型在不改变架构的情况下可以实现与纯视觉模型相媲美的像素级深度预测能力。通过视觉提示、稀疏标注等创新策略,DepthLM在多个3D任务中展现出优越性能,降低了标注成本并提高了模型的灵活性和泛化性,具有在自动驾驶和机器人等领域的广泛应用前景。
英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
英伟达团队利用开源模型和GenCluster策略在IOI 2025竞赛中取得了金牌,展示了开源AI的强大潜力。GenCluster通过多生成候选解、行为聚类、锦标赛排名和轮转提交等四个步骤,显著提高了开源模型的解题能力。这一突破标志着开源AI在顶级编程竞赛中取得了里程碑式的成功,促进了行业的开放与合作,并降低了研究壁垒,为未来的AI发展提供了新的可能性。
DeepSeek 不愧是金额出身的
Nof1推出了Alpha Arena,六个顶级AI模型在加密市场进行实时对决。DeepSeek和Grok均实现约20%的盈利,而GPT-5、Gemini和Qwen则出现亏损。DeepSeek的操作账户余额为$10,951.52,持仓策略以多头为主,风险控制稳健,信心度平均为69.3%。
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
微软推出的BitNet Distillation框架实现了1.58-bit量化,内存需求仅为FP16的1/10,且性能几乎无损。该框架通过模型结构优化、继续预训练和蒸馏式微调三个阶段,显著提升推理速度并降低内存消耗。实验表明,BitDistill在文本分类和摘要任务中表现接近全精度模型,同时兼容多种量化策略,展现出良好的通用性。所有作者均为华人,通讯作者为韦福如博士。
AI助手Cici悄然霸榜海外,又是字节
Cici是一款由字节跳动推出的AI智能助手应用,近期在多个国家的应用商店中迅速崛起,下载量激增。它与豆包在功能和界面上高度相似,支持文字和语音交互,具备图片生成与分析能力。尽管Cici在海外市场表现强劲,但在国内,豆包依然在各个维度上领先,累计下载量破亿,日活跃用户数高于其他竞争对手。字节跳动的全球化战略在AI领域逐渐显现。
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
Meta进行了一项耗资40万GPU小时的实验,旨在明确强化学习的Scaling Law。研究者们提出了一个预测性框架,帮助理解RL性能与算力之间的关系,并设计了ScaleRL这一训练配方,能够在算力扩展时保持可预测性和效率。研究发现,不同方法在算力扩展时的性能上限各异,且常见的提升技巧主要影响算力效率而非最终性能。ScaleRL通过整合现有方法,显著提高了训练的可扩展性和最终性能,成为LLM强化学习扩展的首个开源系统性研究。
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
GPT-5被视为o3.1的迭代,强调了强化学习和预训练在AGI发展中的重要性。OpenAI副总裁Jerry Tworek分享了模型推理过程与人类思维的相似性,指出长时间的推理通常能产生更好的结果。未来,AI智能体化将成为趋势,模型对齐是一个持续的挑战。Tworek坚信预训练与强化学习是通往AGI的必经之路,二者缺一不可。
太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切
DeepSeek开源了新OCR模型DeepSeek-OCR,通过光学二维映射技术实现文本的高效压缩,压缩率可达10倍以上,解码精度在高压缩下仍保持较高水平。该模型在OmniDocBench基准测试中表现优于现有OCR系统,且支持近100种语言的识别,展现出强大的实用价值和研究潜力。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/292629a6-152d-810f-ab3a-f0e1ddee00d7
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。