AI日报
【AI资讯】6月28日
00 分钟
2024-6-28
2024-6-28
slug
summary
tags
icon
password

⏩NeurIPS2024边缘设备大型语言模型挑战

NeurIPS2024边缘设备大型语言模型挑战是一个旨在推动大型语言模型在资源受限的边缘设备上的性能、效率和多任务处理能力的竞赛。文章介绍了大型语言模型在边缘设备上的挑战,包括内存需求、能耗问题、性能损失和离线功能缺乏等。竞赛目标是解决这些挑战,并推动大型语言模型在边缘设备上的实际应用。竞赛的赛道包括压缩挑战和从零训练挑战,参与者有机会赢得总奖金30万的奖金池,并与领域内的专家和同行建立联系。竞赛的重要日期和参与方式也在文章中提到。

⏩比LERF提速199倍!清华哈佛发布LangSplat:三维语义高斯泼溅 | CVPR 2024 Highlight

本文介绍了CVPR 2024 Highlight的论文LangSplat: 3D Language Gaussian Splatting,该方法在开放文本目标定位和语义分割任务上达到了SOTA性能。LangSplat通过结合三维高斯泼溅技术,在每个高斯点上编码了从CLIP提取的语义特征,实现了准确高效的开放文本查询。该方法在1440×1080分辨率的图像上,查询速度比之前的SOTA方法LERF快了199倍。LangSplat的方法论包括层次语义学习、3D语义高斯泼溅和特定场景的语义自编码器。该方法在三维语义场的边界模糊问题上进行了深入研究,并提出了使用SAM学习多层次语义的方法。LangSplat的效果显著超过了之前的SOTA方法LERF,为机器人导航、3D编辑和增强现实等应用提供了一种有前景的方案。

⏩清华AIR等提出ESM-AA,首个从氨基酸到原子尺度的蛋白质语言模型

清华大学AIR等提出ESM-AA模型,首个从氨基酸到原子尺度的蛋白质语言模型。该模型在蛋白质语言建模领域取得了重要进展,能同时处理氨基酸信息和原子信息。ESM-AA模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。该模型被认为有潜力基于ESM-AA开发出可与AlphaFold3、RoseTTAFold All-Atom相竞争的模型,为研究不同生物结构间的相互作用开辟了新的道路。

⏩准确率达0.96,从序列中预测蛋白-配体互作的物理化学约束图神经网络

PSICHIC是一种物理化学图神经网络,可以从序列数据中解码蛋白质-配体相互作用指纹。它结合了物理化学约束,具有高准确性和可解释性。在预测蛋白质-配体结合亲和力方面表现出色,并且在功能效应预测方面达到了0.96的准确率。PSICHIC的可解释指纹能够识别结合位点的蛋白质残基和配体原子,有助于揭示蛋白质-配体相互作用的选择性决定因素。该研究发表在《Nature Machine Intelligence》上,对药物研发具有重要意义。

⏩寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

谢赛宁 Yann LeCun 团队发布了寒武纪1号,这是一个开源的多模态LLM模型。该模型以视觉为中心,探索了多种不同的视觉编码器及其组合,并设计了一种动态且可感知空间的新型连接器,将视觉特征与LLM整合在一起。团队还开发了一个以视觉为中心的基准评测工具CV-Bench。该模型在多个基准上表现出色,尤其擅长以视觉为中心的任务。

⏩将图像自动文本化,图像描述质量更高、更准确了

这篇文章介绍了一种自动化框架,通过整合多模态大语言模型和多种视觉专家模型的协作,将图片信息进行文本化,最后利用纯文本大语言模型将这些文本化的信息转化为高质量的图像描述。该框架提供了一种高效、可扩展的方法来生成准确且详细的图像描述。作者还提出了多个评估细节丰富的图片描述的基准,并通过广泛的实验验证了框架的有效性。此外,他们还生成了一个大规模高质量的图像描述数据集,并将所有源代码和生成的数据集公开发布。

⏩ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

该文章是关于非线性Transformer在上下文学习中学习和泛化机制的研究。作者从优化和泛化理论的角度分析了带有非线性注意力模块和多层感知机的Transformer的ICL能力。他们通过量化数据特征如何影响单层Transformer的域内和域外的ICL泛化能力,并讨论了在ICL推断中使用基于幅值的模型剪枝的可行性。该研究对于理解Transformer的ICL能力和机制具有重要意义。

⏩史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

新加坡国立大学尤洋团队提出了一种名为Pyramid Attention Broadcast(PAB)的实时AI视频生成方法,可以实现高帧率和加速,同时不损失视频质量。该方法可以为未来基于DiT的视频生成模型提供加速,具备实时生成的能力。研究团队通过金字塔式注意力广播来减少不必要的注意力计算,实现了高达35%的加速。此外,他们还改进了序列并行方法,减少了通信开销,使得实时视频生成可以进行更高效的分布式推理。

⏩国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一

科大讯飞发布了讯飞星火大模型V4.0,该模型在8个国际主流测试集中排名第一,整体超越了GPT-4 Turbo。新版本在文本生成、语言理解、知识问答、逻辑推理和数学五大能力方面超越了GPT-4 Turbo,并在12项中英文主流测试集中的8项测试集中排名第一。此外,讯飞星火V4.0还加强了复杂指令跟随和长文本处理能力,并引入了新功能——长文本内容溯源。在多模态方面,模型的图文识别能力得到了提升,尤其在科研、金融、医疗、司法和办公等专业领域。此次发布的模型还具备更强的逻辑推理和空间推理能力。讯飞还宣布语音模型能力升级,除了37个主流语种,还增加了对37种方言的识别。

⏩字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型

苹果公司在HuggingFace上发布了20个新的Core ML模型和4个数据集,其中字节大模型团队的单目深度估计模型 Depth Anything V2入选。该模型在细节处理上更精细,鲁棒性更强,并且速度上有显著提升。经过工程优化后,在iPhone 12 Pro Max上的推理速度达到了31.1毫秒。该模型可以应用在自动驾驶、3D建模、增强现实、安全监控以及空间计算等领域。

⏩300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

该文章是一篇关于多模态引导的图像编辑综述论文。文章总结了复旦大学和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行的调研,涵盖了300多篇相关研究。综述拓展了关于控制条件和编辑任务的讨论,提出了一个统一框架来表示编辑过程,并通过实验说明了不同组合的特性和适应场景。该综述对于图像编辑任务的定义更加广泛,并提供了一个设计空间以满足用户不同的需求。

⏩谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!

谷歌发布了Gemini家族的新成员Gemma 2,提供了90亿和270亿参数的两个版本,具有卓越的性能和高效的推理能力。Gemma 2在同等体积类别中表现出色,能够与体积超过其两倍的模型竞争。它还具有低成本、高速推理和易于部署等特点。谷歌提供了广泛的框架兼容性,使其能够轻松与主要的AI框架结合。开发者可以在Google Cloud上轻松部署和管理Gemma 2,并通过Gemma Cookbook获取实用示例和指南。谷歌还向开发者开放了Gemini 1.5 Pro的200万token上下文窗口访问权限。

⏩击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三

云从科技的从容大模型在综合评测平台OpenCompass的多模态评测领域中取得重大进展,超越了谷歌的Gemini-1.5-Pro和GPT-4v,跻身全球前三。从容大模型在多个数据集上表现优异,尤其在OCRBench测试集上取得全球最高分。该模型依赖云从科技自研的高效多模态处理架构和先进的计算技术,实现了高效的多模态数据处理能力,使得模型的训练过程更加高效,性能更稳定。此次成绩不仅是对云从科技技术创新实力的认可,也在业界树立了典范,激励全球科技企业在人工智能竞争中勇攀高峰。

⏩Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

本文介绍了Bengio团队提出的全新的视觉问答任务:视觉字幕恢复(Visual Caption Restoration,VCR),并对视觉语言模型的推理能力进行了探究。研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程,并通过维基百科的主图 - 介绍对生成了 VCR-wiki 数据集。该任务对于模型的推理能力提出了挑战,文章还介绍了人类在完成该任务时的思维过程和技巧。
上一篇
【AI资讯】6月29日
下一篇
【AI资讯】6月27日