【AI资讯】8月9日 | 小林的博客-AI学长

slug

summary

OpenAI发布了基于GPT-4o的大规模安全评估，尽管未推出GPT-5，且其处理能力涵盖文本、音频、图像和视频。腾讯在MSU世界视频编码器大赛中表现出色，包揽所有指标第一名。阿里通义团队开源了先进的数学模型Qwen2-Math，表现优于其他模型。DeepMind的乒乓球机器人已达到业余选手水平，特别在与初学者的对战中表现突出。

⏩奥特曼「草莓」模型跳票，OpenAI凌晨大新闻，把网友整懵了

OpenAI在凌晨发布了基于最新大模型GPT-4o的全面安全评估，尽管人们期待的GPT-5并未出现。GPT-4o具备文本、音频、图像和视频的处理能力，并在安全性方面进行了严格测试，尽管外界对其透明度和安全框架提出了质疑。

🔗：http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650929607&idx=5&sn=de7c9a36eabcf8533668f45d56c4ab37&chksm=85c7bddd1f7303e1c9b563b3d77b2cf7ab803a6381cce01e39e7b0ce3fcb8d59b92a8e27f453&scene=0#rd

⏩MSU世界视频编码器大赛成绩出炉，腾讯包揽全部指标第一名

腾讯在MSU世界视频编码器大赛中包揽全部指标第一名，展示了其在视频编码领域的强大实力。腾讯的Tencent TVC编码器在各类编码器中取得了14个第一，具有高压缩率和高实时性的特点。此外，腾讯的Tencent266编码器在H.266赛道中包揽了15项指标全部第一，展示了其在新一代国际视频编解码标准H.266/VVC的领先地位。腾讯云已成为全球首家支持H.266/VVC的云厂商，并率先支持H.266在各业务的全线应用。

🔗：https://www.jiqizhixin.com/articles/2024-08-09-4

⏩通义千问开源Qwen2-Math，成为最先进的数学专项模型

阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题，成为最先进的数学专项模型。Qwen2-Math系列模型目前主要支持英文，通义团队很快就将推出中英双语版本，多语言版本也在开发中。通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估，除了 GSM8K 和 MATH等常见的测评基准，还引入了更具挑战性的考试竞赛类测试，如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考（GaoKao）、美国数学邀请赛（AIME）2024 赛题、美国数学竞赛（ AMC）2023赛题，中文测评则有CMATH测评集、2024年中国高考和中考数学题。

🔗：https://www.jiqizhixin.com/articles/2024-08-09-6

⏩DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者

DeepMind开发的乒乓球机器人已达到人类业余选手水平，能够在29场比赛中赢得45%的胜利，尤其在与初学者的对战中表现出色。该机器人采用分层和模块化的策略架构，专注于低级技能的执行，并通过模拟与真实对战不断提升能力。尽管在面对高级选手时表现不佳，但参与者对与机器人的对打体验给予了高度评价。

🔗：http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650929607&idx=3&sn=6c079749748c01041782e7d93b8a874b&chksm=859653ec7fb361738b79121dcf2e3623b42378b9b34a4e2192863a42721bf1707072dc3e8132&scene=0#rd

⏩奥特曼「草莓」模型跳票，OpenAI凌晨大新闻，把网友整懵了

⏩MSU世界视频编码器大赛成绩出炉，腾讯包揽全部指标第一名

⏩通义千问开源Qwen2-Math，成为最先进的数学专项模型

⏩DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者

AI学长小林

交流频道

加入我们的社群讨论分享