OpenAI发布o3/o4-mini模型；豆包1.5深度思考模型上线；Shopify全面拥抱AI；伯克利与英伟达实现4K视觉预训练；谷歌AI破解海豚语 | 04月17日AI资讯

slug

summary

豆包1.5深度思考模型上线，具备强大视觉理解能力；Shopify CEO强调全员必须有效使用AI；OpenAI发布o3和o4-mini模型，支持图像思维；伯克利与英伟达实现4K视觉预训练；谷歌AI成功破解海豚语，推动跨物种交流。

豆包1.5·深度思考模型上线，具备强大的视觉理解能力和多模态推理，支持复杂问题的解答。模型在数学、编程和科学推理等领域表现出色，日均调用量超过12.7万亿，推动国产AI技术发展。

Shopify CEO Tobi Lütke强调，所有员工必须有效使用AI，视其为基本期望，AI将成为提升生产力的重要工具，团队在请求额外人力资源前需证明能否用AI完成目标，鼓励共享AI学习经验以促进创新。

OpenAI发布了o3和o4-mini两款新型推理模型，具备图像思维能力和自主使用工具的功能，o3在多个基准测试中创下新纪录，o4-mini则在成本和性能上表现优异，二者均支持多模态任务和高效推理。

伯克利与英伟达推出PS3视觉编码器，实现4K超高分辨率的高效视觉预训练，显著提升了多模态模型VILA-HD的表现和处理速度，准确率提高3.2%，处理速度提升三倍。

谷歌推出DolphinGemma模型，基于30年海豚研究数据，能够破解海豚语言，实现人与海豚的实时交流。该模型可在普通手机上运行，利用音频技术识别和预测海豚的声音模式。

AI学长小林