slug
summary
tags
icon
password
⏩智加科技论文DualBEV入选计算机视觉顶会ECCV
智加科技团队的论文《DualBEV: Unifying Dual Veiw Transformation with Probabilistic Correspondences》入选了欧洲计算机视觉国际会议(ECCV),该论文提出了一种通用的特征转换算法,将3D-to-2D和2D-to-3D的视角转换方案统一进了一套整体的框架内。该算法在nuScenes Detection Leaderboard上取得了SOTA的结果,并且计算时间仅为Transformer方案的1/40。智加科技已将该技术应用于自主研发的前装量产重卡自动驾驶系统智加领航2.0中,该系统已被投入实际运营。该论文的入选将助力行业标准化和互操作性的提升,推动自动驾驶技术的迭代与突破。
⏩大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。这个模型通过对输入token进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。TTT层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个token的LLM。作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。而结果证明,TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba!
⏩RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
这篇文章介绍了来自佐治亚理工学院和英伟达的两名华人学者提出的名为RankRAG的微调框架,用于简化RAG流水线并提高模型性能。他们通过微调的方法将原本需要多个模型的复杂任务交给同一个LLM完成,实现了模型在RAG任务上的性能提升。RankRAG在多个基准测试上超过了同样基座上的其他微调模型,具有较高的实用性和新颖性。
⏩Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳
Meta AI最近发表的一篇论文质疑了视觉模型中局部关系的必要性,提出了PiT架构,让Transformer直接学习单个像素而不是16×16的patch,取得了全面超越ViT模型的性能。作者认为减少归纳偏差不仅能让模型泛化到更多任务上,还可以促进不同模态数据之间的更大统一,这也是为什么Transformer架构能从处理自然语言逐渐扩展到图像、视频、代码、点云等不同领域。
⏩图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
SelfGNN框架结合了图神经网络和个性化自增强学习,能够捕捉用户行为的多时间尺度模式,降低噪声影响,提升推荐系统鲁棒性。该框架通过图神经网络对时间片段内的交互行为建模,考虑了短期的高阶协同关系;通过序列模型对用户跨时间片段的行为进行关联学习,捕捉长期的时序变化模式。此外,研究人员提出了一种个性化自增强学习方法,通过对比长短期用户行为模式来降低数据噪音的影响,从而增强模型的稳健性。
⏩开源3D医学大模型SAT,支持497类器官,性能超越72个nnU-Nets,上交大团队发布
上海交通大学与上海人工智能实验室联合发布了3D医学图像分割大模型SAT,该模型基于文本提示实现对人体497种器官/病灶的通用分割。SAT通过将人体解剖学知识注入文本编码器,构建了一个包含6K+人体解剖学概念的多模态医疗知识图谱,并构建了最大规模的3D医学图像分割数据集SAT-DS。研究团队训练了两款不同大小的模型SAT-Pro和SAT-Nano,并验证了SAT的性能与72个nnU-Nets专家模型相当,并在域外数据上表现出更强的泛化能力。该研究具有重要的实用性和创新性,对医学图像分割领域具有重要意义。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com//article/a80db197-178f-4021-96ce-dd6d923a5dd6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。