slug
summary
tags
icon
password
⏩创业必看!AI Agent 开源和创业项目全盘点
该文章是关于AI Agent基础设施发展现状和突出项目的盘点。作者分享了对Agent领域的观察和思考,并介绍了一些具有代表性的项目。文章提到了Agent领域的研究进展、基础设施的局限性以及未来的发展方向。虽然文章没有明确的关键词,但内容涉及到了AI Agent、基础设施、开发框架等关键词。该文章的发布时间是2024年,属于较新的文章。
⏩AI Agent满级进化!骑马种田、办公修图,样样精通,昆仑万维等发布通用Agent新框架
昆仑万维等发布了一个名为Cradle的通用AI Agent框架,可以在多种商业游戏和软件应用中进行操作。该框架具有高度的通用性和灵活性,无需训练即可像人一样直接控制键盘鼠标,实现任意开闭源软件的交互。Cradle由6个模块组成,包括信息收集、自我反思、任务推断、技能管理、行动规划和记忆模块。该框架在多款游戏和常用软件上进行了测试,展示了其全能的能力。
⏩Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
FlashAttention推出了第三代更新,针对H100 GPU进行优化,实现了1.5~2倍的速度提升,FLOP利用率达到75%。FlashAttention通过减少内存读写次数,加速注意力机制的方法,使得大语言模型的上下文长度得以扩展。FlashAttention-3主要使用了利用Tensor Cores和TMA的异步性、块状矩阵乘法和softmax操作、FP8低精度的非相干处理等技术加速注意力机制。改进带来了更高效的GPU利用率、更好的低精度性能和在LLMs中使用更长上下文的能力。
⏩生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平
最新研究表明,在特定领域,生成式模型能够超越其训练数据中的专家水平。研究人员选择国际象棋作为研究目标,通过使用Transformer模型基于公开的人类国际象棋对局数据集进行训练,发现模型在某些情况下能够超越提供训练数据的人类专家。研究人员还形式化了超越的概念,并通过降低采样温度和提高预测准确性等方法,探索了模型的性能提升。这项研究对于理解生成式模型的能力上限和提高其性能具有重要意义。
⏩清华类脑计算模型登Nature子刊,受大脑启发的人工树突网络,实现高能效AI
清华大学类脑计算研究中心施路平团队研发的全球首款类脑互补视觉芯片「天眸芯」登上Nature封面。该团队推出的新的神经形态计算架构「Dendristor」模拟了树突的树状结构和时空处理特性,为未来人工智能提供了高能效的视觉感知能力。该研究发表在《Nature Electronics》上,论文链接:https://www.nature.com/articles/s41928-024-01171-7。该研究具有重要意义,对于人工智能领域的发展具有深远影响。
⏩首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频
新加坡国立大学联合南洋理工大学和哈工深的研究人员提出了一个全新的视频推理框架,名为Video-of-Thought(VoT)。该框架通过将复杂的视频推理问题分解为一系列子问题,并结合时空场景图(STSG)和视频多模态大模型,实现了对视频的深入理解和推理。该框架在各类视频QA上的性能超越了传统视频多模态大模型和CoT方法。
⏩DeepMind开发用于量子化学计算的神经网络变分蒙特卡罗
DeepMind和伦敦帝国理工学院的研究人员开发了一种名为FermiNet的费米子神经网络波函数,用于解决正电子-分子复合物基态性质的量子化学计算问题。研究发现,FermiNet可以在具有不同定性正电子结合特性的原子和小分子中产生高度精确的基态能量。该方法无需参考一组基函数即可对多体波函数进行建模,避免了描述正电子波函数的困难。研究人员计算了非极性苯分子的结合能,并发现与实验值高度一致。该方法展示了基于神经网络波函数的方法在正电子化学计算中的通用优势。
⏩ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率
本文介绍了南开大学统计与数据科学学院徐君老师团队在ICML 2024上发表的论文《Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation》,提出了两种反向传播改进策略,即Approx-BP和MS-BP,可以显著减少微调过程中的激活显存占用。通过理论分析和实验验证,文章证明了这两种方法在降低峰值显存占用方面的有效性,并且不会对训练速度和测试精度造成损失。这些方法对于大型Transformer模型的微调具有重要的指导意义。
⏩英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
该文章介绍了一种名为FlashAttention-3的快速、内存高效的注意力算法,该算法可以加速注意力计算并减少内存占用。FlashAttention-3采用了加速Hopper GPU注意力的三种主要技术,包括重叠整体计算和数据移动、交错分块matmul和softmax运算以及利用硬件支持FP8低精度的不连贯处理。该算法在FP16上的速度提高了1.5-2倍,在H100上高达740 TFLOPS(75%实用性),FP8接近1.2 PFLOPS。FlashAttention-3的改进将带来更高效的GPU利用率、较低精度下更好的性能以及能够在LLM中使用更长的上下文。该文章提供了论文地址和作者的观点,同时介绍了Hopper GPU的硬件特性和FlashAttention-3对这些特性的利用。
⏩五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
该文章介绍了Andrej Karpathy在他的项目“llm.c”中训练GPT-2的最新进展。文章指出,与5年前相比,训练大型语言模型的成本大幅下降,现在只需不到700美元和24小时即可完成。Karpathy分享了他的训练心得,并提到了项目的目标和未来的方向。文章还提供了使用llm.c训练GPT-2的详细说明和GitHub地址。
⏩机器人大模型新公司!数据规模比同行大1000倍!贝索斯、孙正义等押注
Skild AI是一家机器人初创公司,宣布筹集到3亿美元的A轮融资,公司估值达15亿美元。投资人包括贝索斯和孙正义等知名人物。Skild AI开发了一种通用的智能系统,可以接入不同机器人,让它们获得基本能力。该公司的数据集规模比竞争对手大1000倍,通过多种数据收集技术和独门秘方,帮助AI系统获得更强的适应性和理解力。Skild AI面临来自特斯拉、OpenAI等机器人公司的竞争。
⏩下一位投资顾问未必是人类:大模型在金融投资领域的应用
该文章介绍了大模型在金融投资领域的应用。大模型通过强大的数据处理能力和智能分析功能,可以帮助投资者做出更明智的决策,预见市场趋势,降低投资风险。文章详细介绍了金融领域的大型语言模型(LLM)如GPT系列、BERT、T5、ELECTRA等的应用情况,以及它们在文本工作和基于知识的分析方面的优势。同时,文章也提到了大模型在金融投资领域的五大应用,包括文本摘要、命名实体识别、情感分析、信用评分和监管合规等任务。然而,文章也指出了大模型的局限性和偏见,并强调结合人类专业知识和判断的重要性。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/f56a2b68-461d-4851-82e5-a2214cd7beef
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。