字数 0阅读时长 1 分钟
Invalid Date
slug
summary
OpenAI发布了三个新语音模型,Claude新增实时网络搜索功能,DeepSeek推出支持实时翻译的AR眼镜,Roblox发布3D智能基础模型Cube以生成游戏资产,清华与哈佛提出4D语言场建模新方法以提升动态场景查询准确性。
tags
icon
password

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI发布了三个新语音模型,包括两个改进的语音转文本模型gpt-4o-transcribe和gpt-4o-mini-transcribe,以及一个文本生成语音模型gpt-4o-mini-tts。新模型在准确性和价格上表现突出,尤其是gpt-4o-mini-transcribe性价比高,适合开发者使用。中文语音生成效果不佳,推荐使用Minimax的Audio模块。

Claude突获「超能力」!Anthropic上线实时网络搜索,逆袭OpenAI和谷歌?

Claude现在可以实时搜索网络信息,提升了回答的准确性和实用性,用户能够获取最新资讯并引用来源。此功能已向美国付费用户开放,预计将扩展至其他用户。尽管Claude的搜索能力有所提升,但仍面临搜索与深度研究之间的挑战,未来可能推出更高级的研究功能。

DeepSeek上脸实测:AR眼镜实时翻译老黄GTC演讲,完了还帮我划重点

DeepSeek与AR眼镜结合,实现实时翻译和会议助手功能,支持多种语言,具备轻量化设计和长续航,未来将与智能设备生态整合,推动AR眼镜的发展。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产

Roblox推出了3D智能基础模型Cube,利用AI技术帮助用户生成游戏资产,包括3D物体、场景和角色。该模型旨在提升游戏创作体验,并支持多种协作应用。研究表明,Cube在生成常见物体方面表现良好,但在超出常识的请求上仍有改进空间。

清华&哈佛4D语言场建模新方法,动态场景精准识别|CVPR2025

清华和哈佛的研究团队提出了一种新方法4D LangSplat,利用动态三维高斯泼溅技术实现动态场景中的开放文本查询,显著提升了时间敏感和时间无关查询的准确性,已被CVPR2025接收并开源。