slug
summary
tags
icon
password
⏩MIT系初创打破Transformer霸权!液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer
MIT系初创公司Liquid AI推出的液体基础模型LFM在基准测试中成为SOTA,首次显著超越Transformer模型。LFM是一种多模态非Transformer模型,能够处理视频、音频、文本等多种顺序数据。该模型有三种规模,分别为1.3B、3.1B和40.3B,均在性能和内存占用上表现优异。LFM的核心优势在于其液体神经网络的适应性,允许实时调整而不增加计算开销。LFM-3B在多项基准测试中表现出色,尤其在内存效率上显著优于同类Transformer模型。Liquid AI希望通过LFM探索超越GPT的基础模型构建方法,推动大规模AI模型的发展。
⏩「Her」将有实体化身,奥特曼携手苹果前首席设计师打造革命性AI硬件
本文报道了苹果前首席设计师Jony Ive与OpenAI合作开发新型人工智能硬件的计划。Ive在离开苹果后创办了设计公司LoveFrom,并致力于吸引创意人才。与OpenAI的合作旨在利用生成式人工智能技术,创造出比iPhone更具社会积极影响的计算体验。文章详细描述了Ive的设计理念、团队构建及其与OpenAI的合作背景,强调了新产品的潜在市场影响力和技术创新。该项目目前处于秘密开发阶段,预计将吸引大量投资,标志着AI硬件领域的重要进展。
⏩2024第八届上海人工智能大会暨未来二十人论坛人工智能专题会议在上海国家会展中心隆重召开
2024年9月24-25日,上海国家会展中心举办了第八届上海人工智能大会,主题为“产业数字化,模创新时代”。大会汇聚了多位国际顶级专家,探讨人工智能在金融、医疗、安防等领域的应用,推动产业与科技的深度融合。会议设置了主论坛及三个专题论坛,聚焦前沿科技与产业发展,强调人工智能、大数据、机器学习等新技术的社会需求。大会还推出了“AI+新质生产力促进高质量发展系列专项行动”,旨在加速各行业的新质生产力形成,促进全球科技合作与创新,推动数字经济的发展。
⏩给机器人装上「虫脑」?非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果
这篇文章介绍了由MIT CSAIL前研究人员创立的初创公司Liquid AI推出的Liquid Foundation Models(LFM),这是一个基于第一原理的新一代生成式AI模型。LFM在多个规模上实现了SOTA性能,且内存占用更少,推理效率更高。文章详细比较了LFM与传统Transformer模型的性能,指出LFM在基准测试中表现优异,尤其在长输入处理和边缘设备应用方面具有显著优势。Liquid AI的创新方法结合了动态系统理论和信号处理,展示了如何用更少的神经元实现复杂任务,标志着AI模型架构的潜在变革。
⏩280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
这篇文章对OpenAI的o1-preview模型进行了全面的评估,涵盖了其在多个复杂推理任务中的表现。研究显示,o1-preview在编程、放射学报告生成、高中数学推理、自然语言推理等领域展现出卓越的能力,尤其在编程挑战中成功率达到83.3%。此外,模型在量化投资和社交媒体分析等领域也表现良好。尽管在某些高度专业的任务中存在局限性,整体结果表明o1-preview在向通用人工智能(AGI)迈进方面取得了显著进展。文章还指出了未来发展的关键领域,包括多模态集成和伦理考虑,为AI研究和应用提供了重要见解。
⏩一手训练,多手应用:国防科大提出灵巧手抓取策略迁移新方案
本文介绍了国防科技大学提出的一种新颖的灵巧手抓取策略迁移方法,旨在解决不同灵巧手之间抓取策略的泛化问题。研究者通过分离高层运动生成与低层关节控制,设计了一个层次化框架,使得在一个灵巧手上训练的策略能够低成本迁移到其他灵巧手,同时保持抓取性能。文章还提出了一种通用的状态和动作表示方法,结合灵巧手的关键点和几何特征,避免了结构差异对策略泛化的影响。此外,基于Transformer的策略网络结构设计进一步提升了抓取策略的适应性和泛化能力。这项研究为机器人抓取任务的多样性和灵活性提供了新的解决方案,具有重要的学术和应用价值。
⏩纯国产万卡集群炼出万亿参数大模型,被这家央企率先做到了!
这篇文章报道了中国电信在人工智能领域的最新进展,特别是其成功开发了首个开源的语义大模型。文章提到,该模型基于万卡集群技术,具备万亿参数,标志着中国在大模型研发方面的重大突破。作为央企的先锋,中国电信的这一成就不仅展示了国产技术的实力,也为未来的AI应用奠定了基础。文章强调了这一技术在自然语言处理等领域的潜在影响,反映了当前AI领域的发展趋势和创新方向。
⏩非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造
这篇文章介绍了MIT CSAIL衍生团队开发的一种新型大模型架构,基于液态神经网络,旨在突破传统Transformer架构的局限。文章强调了从第一性原理出发的创新思维,探讨了液态神经网络在处理复杂任务中的潜力和优势。该模型的出现可能会对AI领域的研究和应用产生深远影响,尤其是在提高模型效率和灵活性方面。文章提供了对新模型的初步分析,展示了其在AI发展趋势中的重要性,值得关注。
⏩杰西卡 发自 国庆版副驾寺 智能车参考 | 公众号 AI4Auto惨。自动驾驶正在全球范围内迎来新的春天,但对于第一波L4明星公司,并没有回暖迹象。图森未来已经转型AIGC游戏,另一家打着通用型自动驾驶第一股上市的Aurora,跌入了更深的谷底。作为谷歌无人车元老克里斯·厄姆森创办的公司,一度有着全球最高的无人驾驶估值,但如今三年过去,全球估值最的公司,市值已经蒸发过半。从今年递交的财报来看,情况糟糕:上半年归母净利润亏损3.47亿美元(约24亿元),毛利亏损2500万美元(约17580万元)。半年花掉9900万美元(约69615.8亿元)后,Aurora账上还剩下4.19亿美元(约29.5亿元)。最重要的是,没有营业收入。今年财报公布后,Aurora的股价一度跌超6%;上市之初最高135亿美元(约975.5亿元)的市值,只剩下68亿美元(约491.4亿元)。尽管如此,投资者似乎对Aurora,或者说对美国自动驾驶信心不死。在刚刚结束的一轮融资中,Aurora超额筹集到了4.83亿美元资金,折合人民币大概是34亿元,比原计划多出6300万美元(约44318万元)。但问题是,当前架构下的L4自动驾驶,真正达到可以规模化商业落地了吗?Aurora的deadline,今年年底。只出不进,半年狂亏24亿2017年,谷歌无人车开创者克里斯·厄姆森,创立了无人车初创公司Aurora;2021年,Aurora在美股以SPAC方式“借壳”合并上市。按照计划,今年年底就是商业模式的验收时刻。“大考”当前,Aurora在运营方面,表现得还很紧张:2023年合作营收为0,2022年可还有6800万美元(约47817万元)的收入;今年上半年递交的两份财报中,也没有再透露营业收入。由于没有营收,公司的支出直接体现为亏损。上半年净亏损3.47亿美元(约24.4亿元),亏损同比收窄16.2%;其中第二季度净亏损为1.82亿美元(约12.8亿元),同比收窄16.5%。毛利也在亏损当中,上半年毛利为-2500万美元(约18064万元),比去年同期亏损多出1500万美元(约10548万元)。第二季度的毛利为-1300万美元(约9141.5万元),去年同期为-500万美元(约3516万元)。支出方面,上半年营业费用为3.91亿美元(约23.6亿元),同比减少8%。其中,研发费用占大头,半年花费掉3.3…
本文分析了自动驾驶领域的现状,特别是Aurora公司的财务状况和市场表现。尽管Aurora曾是无人驾驶领域的明星公司,市值一度高达135亿美元,但目前面临严重亏损和缺乏营业收入的困境。2023年上半年,Aurora净亏损达3.47亿美元,毛利亏损2500万美元,且未能实现商业化收入。尽管如此,Aurora在最近一轮融资中超额筹集了4.83亿美元,显示出投资者对其未来的信心。文章探讨了L4自动驾驶技术的商业化进程及Aurora的未来挑战,强调了当前市场对自动驾驶的复杂态度和前景的不确定性。
⏩OpenAI DevDay:Realtime 实时多模态 API、缓存折扣、视觉微调,全是利好开发者的
OpenAI在DevDay上发布了五项重要创新,旨在增强开发者的能力并改善现有AI工具。新推出的Realtime API允许开发者创建低延迟的语音转语音体验,提示词缓存功能则能显著降低开发成本。模型蒸馏和视觉微调功能使得开发者能够更灵活地使用大型AI模型,提升应用的智能化水平。此外,新广场玩法为开发者提供了更便捷的提示词框架和结构化输出方式。这些更新不仅展示了OpenAI在AI开发领域的持续创新,也为开发者提供了更强大的工具,推动了AI应用的普及与发展。
⏩好久不见!Pika 1.5 发布:超物理特效,功能很抽象、但全量开放
PIKA 1.5版本的发布标志着AI视频行业的又一次重要进展。该版本引入了多种抽象特效模板,用户只需上传图片并选择特效,即可生成有趣的效果,极大地增强了社交媒体的传播价值。文章回顾了AI视频行业的发展历程,提到PIKA与其他竞争者的动态,强调了低门槛和趣味性在吸引普通用户中的重要性。PIKA 1.5的特效设计不仅具备娱乐性,还在视觉表现上有显著提升,展示了AI技术在创意领域的潜力。整体来看,PIKA 1.5的发布为AI视频创作带来了新的可能性,值得关注。
⏩ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型
本文介绍了Meta和佐治亚理工大学的研究团队在ECCV2024上提出的LEGO模型,该模型旨在通过用户的问题和当前场景的照片生成第一视角的动作图像,以提高用户的学习效率。研究指出,传统的大语言模型生成的文本回复往往冗长且不够针对性,而LEGO模型通过直接生成图片教程,能够更有效地指导用户完成任务。文章详细讨论了模型面临的挑战,包括动作细节的缺失和训练数据的domain gap,并提出了通过微调大语言模型和使用GPT-3.5生成详细动作描述的解决方案。该研究为多模态学习和生成模型领域提供了新的视角和方法。
⏩mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
本文介绍了EMOVA(情感丰富的全能助手),这是一个新型的多模态智能助手,能够同时处理图像、文本和语音信息。随着OpenAI GPT-4o的发布,EMOVA的出现填补了大语言模型在全模态交互方面的空白。文章详细阐述了EMOVA的模型架构,包括视觉编码器、语音分词器和情感控制模块,强调了其在视觉理解和语音生成任务中的优越性能。通过高效的全模态对齐方法,EMOVA在多个基准测试中表现出色,展示了其在情感交流和自然人机交互方面的潜力。这项研究为未来的多模态AI助手提供了重要的理论基础和实践指导。
⏩乏善可陈的第二届OpenAI开发者大会,果然没有掀起太大波澜
本文报道了OpenAI第二届开发者大会的情况,尽管没有推出重大新产品,但发布了四大API新功能,包括视觉微调、实时API、模型蒸馏和提示缓存。这些新工具标志着OpenAI战略的转变,旨在增强开发者的能力。实时API允许开发者构建低延迟的语音对话体验,简化了语音助手的构建过程。视觉微调功能则允许开发者通过图像和文本微调模型,提升特定任务的性能。提示缓存功能则旨在降低开发者的成本和延迟。整体来看,文章深入分析了新功能的应用场景和潜在影响,具有较高的实用性和前瞻性。
⏩Pika 1.5王者归来!将一切压扁、膨胀、融化、爆炸,化身为了超强特效利器
Pika 1.5是一个新发布的视频生成模型,具备强大的特效制作能力,能够实现如压扁、融化、爆炸等多种效果。该模型在视频生成领域引起了广泛关注,尤其是在与其他竞争模型如Sora的对比中,Pika 1.5展示了其独特的优势。新版本的特性包括虚幻的Pikaffects、各种电影镜头效果以及更生动的动作表现,极大丰富了用户的创作可能性。Pika 1.5的发布不仅提升了其市场竞争力,也为用户提供了更强大的创作工具,受到网友的热烈赞赏,成为了特效制作的利器。
⏩ECCV2024奖项公布,哥大摘最佳论文,微软COCO数据集获经典论文奖
ECCV 2024会议在意大利米兰召开,哥伦比亚大学的研究者获得最佳论文奖,论文探讨了一种创新的极简主义视觉系统,使用最少像素完成视觉任务,具有保护隐私和节能的优势。会议共录用2395篇论文,录用率为18%。此外,会议还颁发了最佳论文荣誉提名奖,涉及计算渲染和扩散模型的研究,展示了在计算机视觉和图形学领域的最新进展。这些研究为未来视觉技术的发展提供了新的思路,强调了AI在计算机视觉领域的重要性和潜力。
⏩耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
这篇文章讨论了ASU团队对新型大推理模型o1-preview的研究,指出其在推理规划能力上超越了现有的LLM,但仍面临高昂的成本和准确率下降的问题。o1-preview被称为近似推理器,尽管在PlanBench基准测试中表现优异,但在复杂的推理任务中仍未达到理想效果。文章强调了LLM在规划能力上的局限性,并提出了新的评估工具和方法的必要性,以便更好地衡量模型的性能和进步。整体来看,o1模型在AI推理领域开辟了新方向,但仍需进一步研究和改进。
⏩全球首台Arm超算光荣退役!下一代已接任,配备384块英伟达Grace CPU
这篇文章报道了全球首台基于Arm架构的超级计算机Isambard 2的退役及其继任者Isambard 3的上线。Isambard 2在过去六年中为分子模拟和天气预报等研究做出了重要贡献。新一代Isambard 3将配备384块NVIDIA Grace CPU,性能和能效预计是前者的六倍,成为欧洲最节能的系统之一。文章还提到,Isambard 3将推动AI、生命科学和医学等领域的研究,帮助科学家们应对气候变化和其他重大挑战。整体来看,文章内容详实,涵盖了超算的技术进步及其对科学研究的影响,具有较高的专业性和实用性。
⏩整合海量公共数据,谷歌开源AI统计学专家DataGemma
谷歌最近推出了开源AI统计学专家DataGemma,旨在整合海量公共统计数据以解决大语言模型的幻觉问题。DataGemma基于Data Commons,这一庞大的开源数据库包含来自多个可信来源的统计数据,数据点超过2500亿。文章探讨了如何将LLM与外部数据源有效连接,提出了三大挑战,包括选择何时查询外部信息、从哪个源获取数据以及如何生成查询。作者还介绍了RIG和RAG两种方法来增强LLM的查询能力,确保其能够准确处理复杂的统计问题。通过自然语言接口,用户可以用通用语言提出问题,DataGemma则将其转换为结构化查询,避免了幻觉的产生。这一创新为AI在统计分析领域的应用提供了新的可能性。
⏩Pika 1.5重磅升级!万物皆可爆炸,搞笑特效全网病毒式疯传
Pika 1.5的重磅升级引发了社交媒体的广泛关注,新的AI视频模型在图生视频和文生视频的质量上有显著提升,画质更加细腻逼真。新特效功能Pikaffects允许用户轻松实现各种有趣的物理效果,如物体的压碎、融化和爆炸,极大地丰富了视频创作的可能性。Pika团队强调,AI视频不仅应服务于专业制作,还应让普通用户能够轻松生成有趣的视频内容。此次更新不仅提升了用户体验,也为AI视频领域树立了新的标杆,展示了AI在视频创作中的巨大潜力和影响力。
⏩奥特曼赢麻了!硅谷史上最大规模:OpenAI 66亿美元融资成1570亿独角兽,呼吁别投马斯克
本文报道了OpenAI成功完成66亿美元融资,估值突破1570亿美元,成为硅谷历史上最大规模的融资案例。文章详细介绍了融资的背景、参与投资的机构以及OpenAI未来的发展计划。OpenAI的创始人奥特曼在融资过程中呼吁投资者不要支持其竞争对手马斯克的xAI,显示出市场竞争的激烈。融资将用于增强OpenAI在前沿人工智能研究中的领导地位,并推动其使命的进展。文章还提到,OpenAI的估值在短时间内大幅提升,反映出投资者对其未来发展的信心。这一融资事件对全球AI行业的发展具有深远影响。
⏩硅谷风投大佬Khosla正经预言:80%行业被AI取代,人类终将进入「闲暇时代」
本文讨论了硅谷风投大佬Vinod Khosla对AI未来的预言,认为AI将取代80%的工作,导致人类进入一个以闲暇为主的时代。他提到,AI的广泛应用可能会使人类的工作时间减少到每周三天,并强调全民基本收入的重要性,以应对可能出现的经济不平等和失业问题。Khosla认为,AI的潜力在于能够创造更多财富,改善人类生活质量,而不是仅仅取代人类工作。文章还提到,许多科技领袖对AI的未来持乐观态度,认为AI将重新定义工作和生活的意义,带来更丰富的生活体验。
⏩单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
本文介绍了一种名为MonoTTA的单目三维检测模型,该模型通过实时测试时自适应方法显著提升了在未知测试分布上的表现。研究团队来自香港中文大学(深圳)、新加坡国立大学等,专注于利用人工智能技术进行自动驾驶的三维感知。文章强调了纯视觉自动驾驶系统在面对分布偏移时的挑战,尤其是在恶劣天气条件下的物体检测问题。MonoTTA通过自适应挖掘高置信度物体并利用负标签来减少伪标签噪音,从而提高了模型的鲁棒性和实时泛化能力。该研究为自动驾驶领域的技术进步提供了重要的理论支持和实践指导。
⏩Windows 竞技场:面向下一代AI Agent的测试集
本文介绍了微软开发的Windows Agent Arena (WAA),这是一个面向下一代AI计算机助理的测试集,旨在评估多模态操作系统代理的性能。随着大语言模型的发展,AI助手的能力将超越逻辑推理,具备自主计划和行动的能力。WAA包含154个基于Windows平台的日常任务,支持云上并行测试,显著提高了测试效率。文章还提到,WAA将扩展现有的基准测试,填补Windows平台在AI代理评估中的空白,为研究人员提供了一个高质量的工具,以便更好地开发和比较不同的AI代理模型。
⏩一张人脸照片,Meta眼镜识别全部个人信息,两位哈佛开发者:只为警醒世人
这篇文章探讨了由两位哈佛开发者创建的智能眼镜I-XRAY,该设备能够通过一张人脸照片识别个人信息,揭示了智能眼镜在隐私方面的潜在威胁。文章详细描述了该技术的工作原理,包括如何利用Meta智能眼镜和公共数据库进行人脸识别,并通过大语言模型(LLM)自动提取个人信息。开发者强调他们的目的是引发对隐私问题的关注,而非滥用技术。尽管如此,该系统的隐私侵犯风险引发了广泛讨论,Meta公司也对此表示关注。文章深入分析了技术的影响及其对个人隐私的挑战,具有较高的相关性和深度。
⏩奥特曼赢家通吃!OpenAI再揽66亿美元新融资,还不忘「狙击」一把老同事Ilya
OpenAI于2024年10月2日宣布成功融资66亿美元,投后估值达到1570亿美元,显示出其在AI领域的强劲增长。此次融资由Thrive Capital领投,微软、英伟达和软银等多家知名投资机构参与。OpenAI的融资引发了广泛关注,尤其是其附加条件,要求投资者不得支持竞争对手的初创公司,这一举动引发了争议。文章还提到,OpenAI可能在未来几个月内转变为盈利公司,尽管面临外界对其商业模式的质疑。整体来看,这一融资不仅刷新了硅谷的融资纪录,也反映了AI行业的激烈竞争和投资热潮。
⏩OpenAI canvas一夜封神!超强AI编码研究神器,ChatGPT再次颠覆人机交互
本文报道了OpenAI推出的全新canvas界面,标志着ChatGPT在编码和人机交互方面的重大升级。canvas不仅提升了用户与AI的协作能力,还允许用户在写作和编码时进行实时编辑和反馈。文章详细介绍了canvas的功能,包括文献搜索、代码生成与审查、以及创意生成等,强调了其在研究和创作中的实用性。通过与ChatGPT的深度互动,用户可以更高效地完成任务,canvas被视为未来AGI界面的重要一步,可能会对现有的编码工具产生重大影响。
⏩突发!OpenAI Sora掌舵人叛逃,转投谷歌DeepMind
本文报道了OpenAI Sora项目负责人Tim Brooks离职加盟谷歌DeepMind的消息,分析了这一变动对Sora项目及其未来的影响。Tim Brooks在OpenAI期间专注于视频生成和世界模拟器的研究,并在AI领域有着丰富的背景和成就。文章提到,Sora模型的复杂场景生成能力被认为是实现通用人工智能的重要一步,强调了模型的扩展性和计算能力对性能提升的影响。尽管Sora项目面临挑战,但Tim Brooks的离职引发了对其未来发展的广泛关注,尤其是在视频生成技术的进步方面。
⏩o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
这篇文章报道了OpenAI的o1模型在医学领域的显著性能提升,特别是在理解、推理和多语言能力方面的表现超越了以往的模型。来自顶尖华人团队的研究表明,o1模型在医学任务中展现了强大的推理能力,尤其是在复杂临床场景中的应用。文章详细介绍了评估过程,包括使用37个医学数据集和多种提示策略,强调了模型在理解医学概念、进行多步骤逻辑推理和多语言处理方面的能力。尽管o1模型在多个任务中表现出色,但仍需进一步评估其在特定任务上的性能,尤其是在专业领域数据的应用上。
⏩OpenAI重磅发布Canvas:跟ChatGPT一起写作编程
OpenAI最近发布了Canvas,这是一个与ChatGPT结合使用的创新工具,旨在提升用户在编程和写作方面的效率。Canvas的推出被认为是今年最大的更新之一,标志着AI技术在实际应用中的进一步发展。该工具不仅能够帮助用户更好地进行编程,还能在写作过程中提供智能支持,展示了AI在创作领域的潜力。通过Canvas,用户可以更轻松地实现创意,推动了AI技术的应用边界,具有重要的行业影响力。
⏩OpenAI发布新交互界面Canvas: 与ChatGPT一起写作编程,对标Claude Artifacts
OpenAI于2024年10月发布了全新的交互界面Canvas,旨在与ChatGPT协作进行写作和编程。Canvas界面基于GPT-4o构建,允许用户在写作和编码时与ChatGPT进行更深入的互动。用户可以通过Canvas进行研究、生成代码、修改文档等,提升了工作效率。该界面还提供了多种快捷功能,如代码审查、添加注释和修改bug等,极大地增强了用户体验。Canvas的推出被视为OpenAI对竞争对手Claude Artifacts的回应,标志着AI工具在协作和创作方面的重大进步。
⏩Bengio精简了传统RNN,性能可与Transformer媲美
这篇文章讨论了深度学习领域的重要人物Bengio对传统递归神经网络(RNN)的简化研究,指出其性能已能与当前流行的Transformer模型相媲美。文章分析了RNN在处理序列数据时的优势,并探讨了其在大模型架构中的潜力。通过对比RNN和Transformer的性能,作者强调了RNN在某些特定任务中的有效性,尤其是在资源受限的环境中。文章为AI研究者提供了新的视角,鼓励对RNN的进一步探索与应用,具有较高的学术价值和实用性。
⏩5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
本文介绍了新一代三维生成大模型3DTopia-XL,该模型由上海人工智能实验室与南洋理工大学联合推出,能够在5秒内从图片或文本生成高质量的三维数字资产。3DTopia-XL采用了全新的三维表征PrimX和基于DiT的生成架构,具备10亿参数,支持生成具有物理渲染材质的超写实三维模型。该模型的开源代码和技术报告已发布,用户可以通过在线Demo进行体验。实验结果显示,3DTopia-XL在三维生成标准评测中超越了现有开源模型,展现出在三维内容创作方面的巨大潜力,尤其在工业设计和游戏开发等领域具有广泛应用前景。
⏩Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络
本文详细分析了OpenAI研究科学家Noam Brown的演讲,探讨了AI推理能力的重大进展,尤其是o1系列模型的强大推理能力。Brown回顾了他在扑克、围棋和外交等领域的研究历程,强调了搜索和规划算法在AI发展中的关键作用。他指出,搜索策略的引入显著提升了AI的表现,甚至比单纯增加模型参数更为有效。通过对比不同策略的效果,Brown展示了搜索策略带来的巨大增益,改变了他对AI研究的方向。文章还提到Brown在扑克AI领域的成就,包括Libratus和Pluribus等模型的成功,展示了AI在复杂博弈中的潜力和未来发展方向。
⏩刚刚,OpenAI重磅发布交互界面canvas,让ChatGPT成为写作和编程利器
OpenAI近日发布了新的交互界面canvas,旨在提升ChatGPT在写作和编程方面的能力。canvas允许用户与ChatGPT进行更深入的协作,支持文本、代码和网页等多种输出格式。用户可以通过高亮和编辑功能,实时反馈和修改内容,提升创作效率。该界面由GPT-4o支持,提供多种编程快捷操作,如代码审阅、调试和多语言导出。OpenAI的研究团队通过新颖的合成数据生成技术,训练模型以更好地理解用户需求并提供精准反馈。canvas的推出标志着ChatGPT在用户交互和创作工具方面的重要进展,预计将对AI应用产生深远影响。
⏩突发!Sora负责人Tim Brooks离职,还是被谷歌抢走的
本文报道了OpenAI Sora团队负责人Tim Brooks离职并加入谷歌DeepMind的消息,分析了这一事件对OpenAI及其Sora项目的影响。Tim Brooks在AI领域有着丰富的背景,曾参与多个重要项目,包括GPT-4。文章提到Sora项目面临技术挑战,导致其进展缓慢,竞争对手不断崛起。随着OpenAI高层频繁变动,人才流失问题引发关注,文章探讨了这一现象可能对公司的未来发展产生的影响。整体来看,文章提供了对AI行业动态的深入分析,具有较高的相关性和实用性。
⏩更简单、更清晰,解析核酸、蛋白、细胞等结构,AI实现快速分子模式挖掘
该文章介绍了杜克大学研究团队开发的MiLoPYP框架,旨在解决低温电子断层扫描和单粒子断层扫描技术在蛋白质自动识别和定位方面的挑战。MiLoPYP通过自监督学习和半监督粒子定位,能够快速有效地挖掘分子模式并定位多种目标,包括球状和管状复合物。文章详细描述了该框架的工作原理、可视化工具及其在高分辨率蛋白质结构分析中的应用潜力。MiLoPYP的计算效率和准确性使其成为原位分子模式挖掘的重要工具,能够处理大量断层图像,推动细胞生物学研究的进展。
⏩Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
Meta最近发布了其最新的AI视频生成工具Movie Gen,标志着其在AI视频领域的重大进展。该工具能够生成1080p、16秒、每秒16帧的高清长视频,并支持音效和个性化视频生成。Meta还发布了一篇92页的论文,详细介绍了Movie Gen的架构和训练方法,展示了其在精度和细节表现上的优势。Movie Gen采用了30B参数的Transformer模型,并引入了流匹配技术,超越了传统的扩散模型。该工具的个性化功能允许用户通过上传图像生成与之相关的视频,展示了AI在内容创作方面的巨大潜力。
⏩国外游戏作家:吓死了,谷歌NotebookLM的假AI播客正在评论我的书!
这篇文章讨论了谷歌NotebookLM的新功能,该功能能够将文本内容转化为音频播客,吸引了广泛关注。一位游戏作家发现自己的书被生成了假播客,尽管存在一些内容错误,但整体体验令人惊喜。文章强调了AI在信息传递中的潜力,尤其是通过更具吸引力的播客格式来呈现复杂信息。尽管AI播客仍存在幻觉问题,但其在总结和提炼信息方面的能力被认为是其最大价值。作者通过个人体验,展示了AI如何为传统内容提供新的表达方式,提升了信息消费的趣味性和便捷性。
⏩灵巧的机器人,DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略
DeepMind最近推出了两款新型AI机器人系统,分别是ALOHA Unleashed和DemoStart,旨在提升机器人在动态环境中的灵活性和适应能力。ALOHA Unleashed通过大规模数据收集和基于Transformer的学习架构,使机器人能够自主完成复杂任务,如系鞋带和挂T恤。DemoStart则利用强化学习算法,帮助多指机器人在模拟环境中学习灵巧行为,显著减少了所需的模拟演示次数。此外,DeepMind还提出了Gen2Act,通过生成的人类视频来预测运动信息,从而实现机器人在未知场景中的操控能力。这些研究展示了AI在机器人灵巧性和适应性方面的重大进展,具有重要的应用前景。
⏩中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准
这篇文章介绍了中国科学技术大学和科大讯飞团队开发的ChemEval,一个专门用于评估化学领域大语言模型能力的多层次多维度评估框架。ChemEval旨在填补当前化学领域缺乏系统性评估基准的空白,通过设计一系列任务,全面评估模型在化学基础知识、高级概念理解、分子理解和科学知识推演等方面的能力。文章强调了大语言模型在化学领域应用的挑战与机遇,并指出ChemEval将为未来模型的优化和应用提供重要的评估依据。这项研究为化学领域的AI应用提供了新的视角和方法,具有重要的学术和实践价值。
⏩Science 发文,高通量蛋白质组学和人工智能的革命
这篇文章探讨了高通量蛋白质组学与人工智能结合所带来的革命性进展。研究表明,通过分析少量血液样本,科学家能够测量数千种血浆蛋白,并结合大规模患者数据,深入理解疾病根源和衰老过程。文章提到多项研究,利用机器学习模型识别器官特有的蛋白质,评估其与生理年龄和死亡风险的关系。研究结果显示,器官衰老与生活方式因素密切相关,并且高通量蛋白质组学能够有效预测慢性疾病风险。这些发现为疾病预测和个性化医疗提供了新的视角,展示了AI在生物医学领域的巨大潜力。
⏩ECCV 2024 | 像ChatGPT一样,聊聊天就能实现三维场景编辑
本文介绍了一种新型的交互式三维场景编辑框架CE3D,该框架通过大语言模型驱动,允许用户以自然语言进行三维场景的编辑。与传统方法相比,CE3D打破了固定文本输入和单一编辑能力的限制,用户可以使用任意文本指令进行灵活的场景编辑。文章详细阐述了Hash-Atlas网络的设计,该网络将三维场景的编辑转化为二维图集的编辑,从而实现了更高效的多视角编辑与三维重建。该研究的创新性和实用性为未来的三维场景编辑提供了新的思路,具有重要的学术和应用价值。
⏩号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law
Molmo是由创业公司Ai2发布的开源多模态人工智能模型,旨在挑战现有的顶尖模型如Claude 3.5 Sonnet和GPT-4o。Molmo能够通过图像识别和自然语言处理,执行多种任务,如从图片中识别物品并生成广告语,甚至可以完成在线购物等操作。尽管其功能在Demo中表现有限,但在多项测试中,Molmo的表现超越了许多大型模型。其核心优势在于使用高质量的数据集,而非依赖于数量庞大的数据。Molmo的开源特性和小型化设计使其能够在本地运行,降低了使用门槛,推动了多模态AI的发展。该模型的权重和代码即将公开,标志着开源社区在AI领域的重要进展。
⏩Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑
Meta最近发布了其最新的视频生成AI工具Movie Gen,该工具能够根据文本提示生成高质量的视频和音频,甚至具备编辑功能。Meta表示,Movie Gen在生成视频时表现优于行业内其他类似模型,能够生成多种场景和动作,且音效与视频内容高度匹配。该工具的核心是一个30B参数的Transformer模型,支持生成最长16秒的高分辨率视频。Meta的这一创新标志着其在生成式AI领域的又一次重大进展,旨在为创作者提供更强大的创作工具,提升视频制作的便捷性和效果。
⏩最新AI生图模型Flux1.1刷屏!添加单反相机文件名获得超写实图像,网友:我分不清啊
这篇文章介绍了最新发布的AI生图模型Flux1.1,该模型由Stable Diffusion团队开发,能够通过添加单反相机的文件名生成超写实的图像。文章指出,Flux1.1在图像生成的质量上达到了新的高度,许多用户表示难以分辨生成的图像与真实照片之间的差异。这一技术的进步不仅展示了AI在图像生成领域的潜力,也引发了关于其应用和影响的广泛讨论,尤其是在艺术创作和商业领域的应用前景。
⏩何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
本文介绍了MIT和Meta FAIR团队提出的异构预训练Transformer(HPT)模型,该模型旨在解决机器人领域中的异构性问题。HPT通过预训练一个大型共享神经网络,能够有效地学习与任务和机器人形态无关的共享表示,从而提升机器人在不同任务中的泛化能力。研究表明,HPT在多个基准模型中表现优异,性能提升超过20%。该模型的设计灵感来源于人类的神经反馈机制,采用模块化结构,能够对来自不同传感器的输入进行有效对齐。HPT的研究成果已被NeurIPS 2024接收为Spotlight,显示出其在AI领域的重要性和创新性。
⏩告别CUDA无需Triton!Mirage零门槛生成PyTorch算子,人均GPU编程大师?
本文介绍了来自卡内基梅隆大学的Catalyst Group团队发布的Mirage项目,这是一款针对PyTorch的算子编译器,旨在简化GPU编程。用户无需编写CUDA或Triton代码,即可自动生成高效的GPU内核,显著提高了编程效率。Mirage利用SuperOptimization技术,能够为用户提供高性能的GPU内核实现,尤其在处理注意力机制时,用户只需编写少量Python代码。与传统的CUDA编程相比,Mirage不仅降低了对GPU编程知识的要求,还能在某些情况下实现更快的计算速度。该项目的发布标志着AI领域在GPU编程自动化方面的重要进展,具有广泛的应用前景。
⏩Python程序到计算图一键转化,详解清华开源深度学习编译器MagPy
该文章介绍了清华大学PACMAN实验室发布的开源深度学习编译器MagPy,旨在简化用户将Python编写的深度学习程序转化为计算图的过程。MagPy能够自动将用户的Python+PyTorch程序转化为适合深度学习编译器的计算图表示,从而提升模型的运行效率,避免用户手动转换带来的复杂性和性能损失。文章详细阐述了深度学习计算图提取技术的背景及其重要性,并指出现有技术在处理复杂用户程序时的局限性。MagPy的设计通过分析Python解释器中的执行状态信息,帮助编译器更好地理解用户程序,进而实现更高效的模型加速。该研究成果在USENIX ATC’24会议上发表,具有重要的学术和实用价值。
⏩Sebastian Raschka最新博客:从头开始,用Llama 2构建Llama 3.2
本文介绍了机器学习研究员Sebastian Raschka在Meta Connect 2024大会上发布的关于Llama 3.2模型的教程,重点在于如何将Llama 2模型逐步转换为Llama 3及其后续版本。Llama 3.2是一个轻量级的开源模型,能够在边缘和移动设备上运行,具备多语言文本生成和工具调用能力,强调了数据隐私性。文章提供了详细的代码实现和步骤,适合初学者和开发者参考,帮助他们理解和实施大型语言模型的架构。整体内容深入且实用,适合对AI模型开发感兴趣的读者。
⏩AI博士如何做出有影响力的研究?斯隆奖得主弟子亲身讲述经验
这篇文章由斯坦福大学NLP组的博士生Omar Khattab撰写,探讨了如何在人工智能领域进行有影响力的研究。文章强调,研究生应关注项目而非单纯的论文发表,选择具有前沿性和挖掘潜力的问题,并通过开源工作来提升研究的影响力。Khattab提出了几个指导原则,包括提前思考、快速迭代和推广自己的工作。他以ColBERT为例,说明了如何在高效检索领域找到具有发展空间的问题。文章为研究生提供了实用的建议,旨在帮助他们在竞争激烈的AI领域中脱颖而出。
⏩如何用生成式 AI 定义我们的未来?看看微软怎么说
这篇文章探讨了生成式人工智能(AI)在未来社会中的潜在影响,强调了AI在解决复杂问题和提高生产力方面的能力。文章指出,尽管AI技术的进步为知识工作者带来了经济效益,但其影响并不均匀,尤其是对低技能工人和新手的帮助更为显著。文章还提到,AI可能加剧现有的经济不平等,尤其是在教育和收入方面。为了应对这一挑战,构建AI系统的工程师应关注未被服务的社区,确保AI技术的普及和公平使用。此外,文章讨论了自动化对工作和职业的影响,强调了人类与AI之间关系的动态变化,指出技术创新将创造新的工作岗位,而不是简单地取代现有岗位。
⏩「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
这篇文章讨论了Reflection 70B模型的发布及其后续的争议,揭示了其基准测试结果的造假问题。最初,Reflection 70B被誉为开源领域的新王,声称其性能可与顶级闭源模型相媲美。然而,独立测试显示其表现远不如预期,甚至低于原始的Llama 3.1 70B。文章详细描述了开发者Matt Shumer和Sahil Chaudhary的反思与调查过程,指出了模型测试中的错误和数据操控问题。最终,团队承认模型未能达到最初的基准,反映出AI领域在模型发布和评估中的严峻挑战。这一事件引发了对AI基准测试可靠性的广泛讨论,强调了透明性和验证的重要性。
⏩文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
Playground Research发布了新一代文本到图像模型PGv3,参数量达到240亿,采用深度融合的大型语言模型,超越人类设计师的图形设计能力。PGv3基于全新的深度融合架构,利用解码器大型语言模型的知识进行文本到图像生成,支持精确的RGB颜色控制和多语言识别。研究表明,PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色,尤其在表情包、海报和logo设计等应用中具有显著优势。该模型的架构与传统模型不同,采用Transformer结构,优化了信息流和计算效率,提升了生成图像的质量和一致性。PGv3的发布标志着文本到图像生成技术的重大进步,具有广泛的应用潜力。
⏩Jim Fan再谈基准测试之弊!Hugging Face开源套件LightEval领跑LLM评估新篇章
本文讨论了Hugging Face推出的开源评估套件LightEval,旨在提升AI模型评估的透明度和定制化。文章中,英伟达高级科学家Jim Fan分享了破解LLM基准测试的几种方法,揭示了当前评估体系中的漏洞。LightEval允许用户根据具体需求定制评估任务,支持多种设备,促进AI社区的合作与创新。文章强调了可靠、可定制的评估工具在AI日常商业运营中的重要性,指出LightEval有潜力成为该领域的关键工具,尽管仍处于初期阶段,未来的改进和用户反馈将是关键。
⏩Cursor创始团队最新访谈:如果Github整合o1,Cursor可能要倒闭了
这篇文章是对Cursor团队创始成员的访谈,探讨了Cursor作为一款AI编程工具的起源和未来发展。文章提到Cursor基于VS Code,集成了多种AI辅助编程功能,吸引了广泛关注。访谈中,团队成员回顾了OpenAI发布缩放损失论文后的技术进展,以及GPT-IV的使用如何推动了Cursor的功能升级。文章详细介绍了Cursor的diff接口功能,强调了用户体验设计的重要性,并探讨了如何利用智能模型优化代码审查过程。整体上,文章提供了对AI编程工具发展的深刻见解,具有较高的实用性和前瞻性。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/111629a6-152d-806a-9d74-ee3fc81d21e6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。