OpenAI推迟上线或要等到明年大模型技术速度正在放缓

2024-09-29

次

　　原计划在六月底开始向少部分ChatGPT Plus用户推出alpha版本，但需要再花一个月时间才能达到发布标准。

　　该公司称，目前正在提升模型检测和拒绝不当内容的能力，也在改进用户体验，并在准备基础设施，以确保在扩展到数百万用户时仍能保持实时响应。

　　“作为迭代部署策略的一部分，我们将从少部分用户开始alpha测试，以收集反馈，并根据反馈进行改进和扩展。”OpenAI表示，计划将在秋季让所有Plus用户都能使用语音功能，具体时间表取决于是否能达到高标准的安全性和可靠性。

　　OpenAI提到的高级语音功能是在5月的春节发布会上对外展示，当时发布的新一代大模型GPT-4o集文本音频视觉于一身，支持文本、音频和图像的任意组合作为输入和输出，被OpenAI称为“迈向更自然的人机交互的一步”。

　　根据当时公布的基准测试，GPT-4o在多语言、音频和视觉功能上达到新的水平。在语音识别和翻译方面，GPT-4o相比OpenAI自己开发的语音模式Whisper-v3显著提高，在语音翻译树立了新的最先进水平。

　　OpenAI首席技术官穆里·穆拉提（Muri Murati）当时表示，OpenAI一直致力于让用户通过语音与ChatGPT 进行真人般地交流，但之前版本由于延迟问题，严重影响了对话的沉浸感。

　　“GPT-4o最大亮点在于其语音交互模式采用了新技术，从而使得人们可以用麦克风与 ChatGPT交谈，让聊天机器人对话的响应速度大幅提升。”穆拉提表示。

　　据介绍，GPT-4o可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。它不仅可以将语音转换为文本，还具备先进的音频理解能力。

　　根据发布会上的演示，在提问结束后，GPT-4o几乎可以即时回应，并通过文本转语音功能进行朗读，且对话比较自然逼真。它还能感受到呼吸和情感，并可以调整控制声音或说话语义，比如发出夸张、兴奋、舒缓或机器人的声音。

　　OpenAI CEO奥特曼表示，GPT-4o提供新的语音和视频模式，是其用过的最好的计算机界面。“事实证明，达到人类水平的响应时间和表达能力是一个巨大的变化，能够使用计算机做比以往更多的事情。”

　　不过，当时OpenAI并未立马上线o的语音功能，并表示它会带来新的安全风险，且仍存在局限性。但经过一个多月的优化后，这项语音功能依然并未达到预期。

　　“ChatGPT的高级语音模式能够理解并带有情感和非语言提示的回应，从而实现更接近与AI进行实时、自然对话，我们的使命是深思熟虑地将这些新体验带给您。”OpenAI称。

　　OpenAI在最近进展中还透露，目前也在推进之前单独展示的视频和屏幕共享功能，并会及时通知更新。

　　此外，OpenAI还宣布ChatGPT Mac端正式推出，实现ChatGPT与用户工作流、写作和创作方式集成。此前，苹果已与OpenAI达成合作，ChatGPT将在云端响应苹果用户需求。

　　目前，OpenAI正面临谷歌、Anthropic等对手的贴身追赶，后者最新发布的Claude 3.5 Sonnet在逻辑推理、数学编程等方面的性能均超越GPT-4o，但这款模型并未加入语音功能。

　　因此，某种程度来看，GPT-4o在语音方面仍保持领先。但OpenAI推迟上线语音功能，则显示出，尽管是目前依然最为领先的大模型企业，但技术进步也在放缓，这背后可能涉及到数据版权、算力等问题，以及监管之下AI内容安全变得越发重要。

　　前不久，美国知名女演员斯嘉丽·约翰逊就针对ChatGPT使用酷似她的语音一事提出质疑，并向OpenAI发出律师函。OpenAI虽然并未承认违规使用，但还是下架了该语音。

　　实际上，OpenAI在研发新一代的模型的步伐也已经放缓，业界预期GPT-5原本应该在今年夏季发布，但目前OpenAI还未给出时间表，此前展示的Sora也依然未对外开放。

　　穆拉提在最近的一次采访表示，AI系统在特定任务中已经达到人类水平，GPT-3类似婴儿水平的智能，GPT-4则进化到更像一个高中生，OpenAI接下来将致力于研究达到博士级别的智能，也许就在一年或一年半之后实现。

　　外界认为，这款模型可能就是OpenAI目前正在研发的GPT-5，按照前述预期，其有望在2025年底或2026年初推出。

　　此前有爆料称，GPT-5将是具有52万亿参数的多模态模型，意味着其复杂性和性能将有显著提升。但这可能也会面临更大的技术和工程难度，时间成本也会更高。