33 | Page | 小林的博客-AI学长

8月4日的AI资讯包括：GitHub推出新功能「GitHub Models」，允许开发者直接访问顶级大模型以构建AI应用；马斯克宣布特斯拉自研超算Dojo，预计达到100 exaflops计算能力；Perceptive公司开发的AI机器人成功执行世界首例牙科手术，速度是人类医生的8倍；研究者提出JRT提示策略以提升循环语言模型性能；阿里发布「轨迹可控版Sora」视频生成模型，生成高质量符合物理规律的视频。

8月6日，Figure.AI将发布新款人形机器人Figure 02，集成OpenAI的多模态大模型，预计在灵巧度上有显著提升。Character.AI与谷歌达成协议，谷歌获得其语言模型技术的非独家许可，同时重新雇佣创始人。研究显示，GPT-4o在PDF长文档阅读理解上的表现仅为44.9%，表明当前视觉语言大模型在长文档解析上仍需改进。

苹果和Meta AI提出了LazyLLM方法，提升Llama 2推理速度，同时保持准确度。谷歌发布Gemini 1.5 Pro，表现优于GPT-4o，但在某些领域仍有待提升。Stability AI的Robin Rombach创办新公司Black Forest Labs，推出FLUX.1模型系列，并计划发布开源的文生视频模型。

文章介绍了几项重要的AI发展：国产开源搜索引擎MindSearch在信息整合上优于其他AI搜索引擎；斯坦福大学推出的alphaXiv讨论平台允许用户在arXiv论文上进行互动；谷歌开源的Gemma 2 2B模型在性能上超越GPT-3.5-Turbo；周鸿祎ISC发布的免费安全大模型安全能力超过GPT-4。这些进展推动了AI技术的创新和学术交流。

Mentee Robotics展示了其人形机器人MenteeBot的购物陪伴能力，计划在2025年推出原型。GPT-4o语音模式已上线，支持自然对话，预计秋季向所有用户开放。英伟达在SIGGRAPH 2024介绍了可用苹果Vision Pro远程操控人形机器人的新功能。Midjourney v6.1发布后反响热烈，图像生成质量显著提高，接近摄影水平。

Meta发布了Segment Anything Model 2（SAM 2），用于实时图像和视频对象分割，并开源了相关数据库。生成式AI技术在社交媒体推荐系统中的应用前景被探讨，Meta和英伟达的创始人讨论了未来的发展趋势。生数科技的Vidu视频生成产品以30秒生成4秒视频的速度全球上线，成为业界最快。苹果的自研基础模型（AFM）在多项任务上表现超过GPT-4，具备强大的对话功能和应用。

本文讨论了AI开源的发展趋势以及OpenAI转向闭源的原因。另外，还探讨了大模型的越狱现象和相应的防御机制，介绍了豆包大模型在图像生成方面的最新进展，以及斯坦福大学和SLAC国家加速器实验室的科学家们开发的一种AI方法，为材料发现和自动驾驶实验奠定了基础。

这篇文章讨论了人工智能在具备常识方面的挑战，以及教授AI常识的方法。另外，文章揭示了Llama 3.1的研发思路和后续Llama 4的更新方向。还讨论了OpenAI的SearchGPT官方演示中的搜索结果错误和源代码泄露的问题。

微软发布VALL-E 2模型，首个在文本到语音合成方面达到人类水平的零样本模型。OpenAI与媒体公司建立合作伙伴关系，引发了数据伦理和版权争议。吴恩达和Charles Giancarlo讨论了AI图像处理的革命和数据集中化对AI的重要性。

本文介绍了关于使用AI生成的数据训练AI模型可能导致模型崩溃的问题，OpenAI发布的大模型搜索产品SearchGPT以及智谱AI发布的视频生成大模型产品「清影」和Runway发布的Gen-3视频生成模型。这些新的发展对于AI领域的研究和发展具有重要意义。

英特尔举办2024网络与边缘计算行业大会，推动边缘AI创新发展；法国AI初创公司Mistral AI发布了开源模型Mistral Large 2，具有1230亿个参数；OpenAI设计了基于规则的奖励机制（RBR）来教导AI模型遵守安全政策；字节跳动研究团队推出了端到端同声传译智能体CLASI，达到或超过人类同传水平。

Llama 3.1, an open-source model, has surpassed closed-source models GPT-4o and Claude 3.5 Sonnet with its 405B performance. Its release is considered a significant milestone in the development of open-source AI and praised as a leader in the open AI ecosystem. MultiTrust, a comprehensive benchmark led by Tsinghua University, evaluates the credibility of multimodal large language models across five dimensions. Kuaishou's video generation model, Ke Ling AI, has announced another upgrade in its base model and opened up internal testing, improving image quality and motion performance.

上页

...

31 32 33 34 35

...

下页

上页

下页

你好！我是