【AI资讯】8月21日 | 小林的博客-AI学长

slug

summary

8月21日的AI资讯包括：英伟达投资的Luma AI推出Dream Machine 1.5版本，专注文生视频，用户反响积极；英伟达的LongVILA全栈解决方案在长视频处理上实现99.5%准确率；腾讯混元大模型负责人王迪分享了万亿MoE大模型的研发历程；微软发布三款小语言模型，表现超越多款大型模型，适用于内存受限设备。

⏩英伟达投的Sora竞品飞速上新！一手实测这就奉上

英伟达投资的Sora竞品Luma AI推出了Dream Machine 1.5版本，专注于文生视频，用户反响积极。新版本展示了多种视觉效果，用户访问量在7月份达到了2260万次，领先于其他AI视频生成工具。Luma AI的联合创始人有丰富的AR/CV背景，近期融资4300万美元，显示出其市场潜力。

🔗：http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247745165&idx=4&sn=074e7c18c75d02bc3356c635dcaf0b5c&chksm=e9e231be8a88fc1fc72adfacae4544dae7d3a6ab404b3a6075bf770c683dbfd50f43e2a31bb0&scene=0#rd

⏩支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

这篇文章介绍了英伟达推出的全栈解决方案LongVILA，用于训练和部署长上下文视觉语言模型。文章详细介绍了LongVILA的系统设计、模型训练策略和数据集构建，并提供了论文和代码的链接。研究者通过使用LongVILA在处理长视频字幕任务上取得了显著的性能提升，实现了99.5%的准确率。文章还介绍了多模态序列并行训练长上下文视觉语言模型的挑战，并提出了解决方案。

🔗：https://www.jiqizhixin.com/articles/2024-08-21-5

⏩腾讯混元大模型负责人王迪：揭秘万亿 MoE 系统工程之道｜智者访谈

本文是机器之心的一篇报道，介绍了腾讯混元大模型负责人王迪的访谈内容。王迪分享了腾讯从0到1自研万亿级MoE大模型的历程，强调大模型是一项跨领域的系统工程，需要高效整合工程、算法、数据和业务应用。他还讨论了小模型成为趋势的深层逻辑，以及腾讯为何选择从零自研大模型。文章内容深入浅出，对大模型研发和工程的整个链路进行了解析，对AI领域的研究和发展具有一定的参考价值。

🔗：https://www.jiqizhixin.com/articles/2024-08-21-7

⏩微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

微软发布了三款新的小语言模型，包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct。这些模型在性能上表现出色，在某些情况下甚至超过了其他大型模型，如谷歌的Gemini 1.5 Flash和OpenAI的GPT-4o。Phi-3.5-mini-instruct是一种轻量级AI模型，适用于内存或算力受限的设备，可以完成代码生成、数学问题的解决和逻辑推理等任务。Phi-3.5-MoE-instruct是微软的首个MoE模型，采用混合专家架构，专注于处理高质量、推理密集的数据。Phi-3.5-vision-instruct是一种专注于多模态的视觉模型。这些模型支持多种语言，并在长上下文任务和专业学科领域表现出色。

🔗：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652513952&idx=2&sn=20da4130dfe391166009de586a6a06fd&chksm=f0d4ea402387e01940f19ba59fac4faae8fa1114ac0f5c988ad1d4bfb95d1b4afd746d756aaa&scene=0#rd

⏩英伟达投的Sora竞品飞速上新！一手实测这就奉上

⏩支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

⏩腾讯混元大模型负责人王迪：揭秘万亿 MoE 系统工程之道｜智者访谈

⏩微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

AI学长小林

交流频道

加入我们的社群讨论分享