AI日报
OpenAI发布新语音模型;Claude上线实时网络搜索;DeepSeek AR眼镜实时翻译;Roblox推出3D智能基础模型;清华&哈佛4D语言场建模新方法 | 03月21日AI资讯
00 分钟
2025-3-21
2025-3-21
slug
summary
tags
icon
password

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI发布了三个新语音模型,包括两个改进的语音转文本模型gpt-4o-transcribe和gpt-4o-mini-transcribe,以及一个文本生成语音模型gpt-4o-mini-tts。新模型在准确性和价格上表现突出,尤其是gpt-4o-mini-transcribe性价比高,适合开发者使用。中文语音生成效果不佳,推荐使用Minimax的Audio模块。

Claude突获「超能力」!Anthropic上线实时网络搜索,逆袭OpenAI和谷歌?

Claude现在可以实时搜索网络信息,提升了回答的准确性和实用性,用户能够获取最新资讯并引用来源。此功能已向美国付费用户开放,预计将扩展至其他用户。尽管Claude的搜索能力有所提升,但仍面临搜索与深度研究之间的挑战,未来可能推出更高级的研究功能。

DeepSeek上脸实测:AR眼镜实时翻译老黄GTC演讲,完了还帮我划重点

DeepSeek与AR眼镜结合,实现实时翻译和会议助手功能,支持多种语言,具备轻量化设计和长续航,未来将与智能设备生态整合,推动AR眼镜的发展。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产

Roblox推出了3D智能基础模型Cube,利用AI技术帮助用户生成游戏资产,包括3D物体、场景和角色。该模型旨在提升游戏创作体验,并支持多种协作应用。研究表明,Cube在生成常见物体方面表现良好,但在超出常识的请求上仍有改进空间。

清华&哈佛4D语言场建模新方法,动态场景精准识别|CVPR2025

清华和哈佛的研究团队提出了一种新方法4D LangSplat,利用动态三维高斯泼溅技术实现动态场景中的开放文本查询,显著提升了时间敏感和时间无关查询的准确性,已被CVPR2025接收并开源。
上一篇
英伟达开源自适应多模态世界生成模型;腾讯推出混合Mamba架构推理模型;DeepSeek吸引顶尖人才回流;MetaSpatial提升3D空间推理能力;AI PS卷起图片编辑革命 | 03月22日AI资讯
下一篇
华为发布Pura X AI原生手机;OpenAI推出最贵o1-pro API;英伟达发布Rubin GPU;清华提出GridMix新范式;腾讯加大AI投资 | 03月20日AI资讯