slug
summary
tags
icon
password
⏩Vidu发布「主体参照」功能,有效解决视频生成一致性问题
Vidu发布的「主体参照」功能是一个创新的视频生成技术,允许用户通过上传主体图片来实现视频中主体的一致性生成。这一功能不仅适用于人物,还能处理动物、商品及虚构角色,确保在不同场景下的形象连贯性。与传统的图生视频和角色一致性技术相比,「主体参照」大幅提升了视频生成的可控性和灵活性,简化了制作流程,降低了成本。生树科技CEO唐家渝表示,这一功能标志着AI视频创作的高效新阶段,未来将继续探索多主体交互和风格统一等复杂叙事需求。
⏩Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接
Mistral团队发布了其首个多模态模型Pixtral 12B,模型大小为23.64GB,包含强大的视觉编码器,支持1024×1024图像处理和多模态数据的理解与生成。该模型参数包括40层、隐藏维度14,336和32个注意力头,具备131,072个不同token的词汇库,能够处理复杂的文本和图像信息。尽管Pixtral 12B的性能尚未完全评估,但初步测试显示其在多个基准上表现优于其他开放多模态模型。Mistral还在AI峰会上分享了该模型的应用案例,展示了其在OCR、图像信息提取和复杂推理方面的能力。未来,Mistral计划通过其平台提供该模型,旨在让AI更易用和有用。
⏩腾讯最新万亿参数异构MoE上线,技术细节首次曝光!权威评测国内第一,直逼GPT-4o
腾讯最新发布的混元Turbo大模型采用了全新的分层异构MoE架构,参数总量达到万亿级,性能在国内处于领先地位,直逼GPT-4o。文章详细介绍了模型的技术细节,包括Pretrain和Postrain阶段的创新,特别是在强化学习和高质量文本创作、数学、逻辑推理等专项能力的提升方面。混元Turbo通过优化算法和训练框架,显著提高了训练推理效率和降低了部署成本。此外,文章还提到该模型在高考作文写作评测中获得第一名,展示了其在实际应用中的潜力。这篇文章为AI领域的最新发展提供了深入的技术分析和实用信息。
⏩OpenAI 65亿融资成形,估值暴涨至1500亿美元!微软苹果英伟达相继「输血」
OpenAI正在进行新一轮65亿美元的融资,估值预计将达到1500亿美元,成为千亿美元俱乐部的一员。此次融资引起了金融界的广泛关注,尤其是微软、苹果和英伟达等科技巨头的参与。OpenAI自2015年成立以来,推出了ChatGPT等一系列热门产品,尽管面临内部管理问题和高额亏损,但融资仍被视为其发展的关键。首席财务官表示,这笔资金将用于支持计算能力和运营费用。文章详细分析了OpenAI的融资背景及其在AI领域的重要地位,具有较高的时效性和行业相关性。
⏩厉害了!Adobe新出Firefly视频模型,2分钟速成高清大片
Adobe最近推出了Firefly视频模型,旨在帮助视频内容创作者在短时间内生成高质量的作品。该模型利用AI技术,能够根据用户的提示快速生成视频片段,展示了强大的创意扩展能力。Firefly视频模型支持多种功能,包括视频序列组合、相机控制和动画制作,能够满足编辑、电影制作人和内容创作者的多样化需求。此外,Adobe强调该模型在商业安全性方面的设计,确保用户内容的隐私和版权得到保护。此项技术的推出标志着AI在视频创作领域的又一重要进展,具有广泛的应用前景。
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/b1373ab9-dbdf-4fbe-b6bc-1f7aab6fdf8f
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。