您好!欢迎访问极悦娱乐-极悦平台注册「畅享高质量游戏」官方网站!

服务咨询热线


400-123456

您当前的位置 : 首页 > 新闻中心 > 技术资讯

OpenAI推迟上线或要等到明年大模型技术速度正在放缓

2024-09-29

  原计划在六月底开始向少部分ChatGPT Plus用户推出alpha版本,但需要再花一个月时间才能达到发布标准。

  该公司称,目前正在提升模型检测和拒绝不当内容的能力,也在改进用户体验,并在准备基础设施,以确保在扩展到数百万用户时仍能保持实时响应。

  “作为迭代部署策略的一部分,我们将从少部分用户开始alpha测试,以收集反馈,并根据反馈进行改进和扩展。”OpenAI表示,计划将在秋季让所有Plus用户都能使用语音功能,具体时间表取决于是否能达到高标准的安全性和可靠性。

  OpenAI提到的高级语音功能是在5月的春节发布会上对外展示,当时发布的新一代大模型GPT-4o集文本音频视觉于一身,支持文本、音频和图像的任意组合作为输入和输出,被OpenAI称为“迈向更自然的人机交互的一步”。

  根据当时公布的基准测试,GPT-4o在多语言、音频和视觉功能上达到新的水平。在语音识别和翻译方面,GPT-4o相比OpenAI自己开发的语音模式Whisper-v3显著提高,在语音翻译树立了新的最先进水平。

  OpenAI首席技术官穆里·穆拉提(Muri Murati)当时表示,OpenAI一直致力于让用户通过语音与ChatGPT 进行真人般地交流,但之前版本由于延迟问题,严重影响了对话的沉浸感。

  “GPT-4o最大亮点在于其语音交互模式采用了新技术,从而使得人们可以用麦克风与 ChatGPT交谈,让聊天机器人对话的响应速度大幅提升。”穆拉提表示。

  据介绍,GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。它不仅可以将语音转换为文本,还具备先进的音频理解能力。

  根据发布会上的演示,在提问结束后,GPT-4o几乎可以即时回应,并通过文本转语音功能进行朗读,且对话比较自然逼真。它还能感受到呼吸和情感,并可以调整控制声音或说话语义,比如发出夸张、兴奋、舒缓或机器人的声音。

  OpenAI CEO奥特曼表示,GPT-4o提供新的语音和视频模式,是其用过的最好的计算机界面。“事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化,能够使用计算机做比以往更多的事情。”

  不过,当时OpenAI并未立马上线o的语音功能,并表示它会带来新的安全风险,且仍存在局限性。但经过一个多月的优化后,这项语音功能依然并未达到预期。

  “ChatGPT的高级语音模式能够理解并带有情感和非语言提示的回应,从而实现更接近与AI进行实时、自然对话,我们的使命是深思熟虑地将这些新体验带给您。”OpenAI称。

  OpenAI在最近进展中还透露,目前也在推进之前单独展示的视频和屏幕共享功能,并会及时通知更新。

  此外,OpenAI还宣布ChatGPT Mac端正式推出,实现ChatGPT与用户工作流、写作和创作方式集成。此前,苹果已与OpenAI达成合作,ChatGPT将在云端响应苹果用户需求。

  目前,OpenAI正面临谷歌、Anthropic等对手的贴身追赶,后者最新发布的Claude 3.5 Sonnet在逻辑推理、数学编程等方面的性能均超越GPT-4o,但这款模型并未加入语音功能。

  因此,某种程度来看,GPT-4o在语音方面仍保持领先。但OpenAI推迟上线语音功能,则显示出,尽管是目前依然最为领先的大模型企业,但技术进步也在放缓,这背后可能涉及到数据版权、算力等问题,以及监管之下AI内容安全变得越发重要。

  前不久,美国知名女演员斯嘉丽·约翰逊就针对ChatGPT使用酷似她的语音一事提出质疑,并向OpenAI发出律师函。OpenAI虽然并未承认违规使用,但还是下架了该语音。

  实际上,OpenAI在研发新一代的模型的步伐也已经放缓,业界预期GPT-5原本应该在今年夏季发布,但目前OpenAI还未给出时间表,此前展示的Sora也依然未对外开放。

  穆拉提在最近的一次采访表示,AI系统在特定任务中已经达到人类水平,GPT-3类似婴儿水平的智能,GPT-4则进化到更像一个高中生,OpenAI接下来将致力于研究达到博士级别的智能,也许就在一年或一年半之后实现。

  外界认为,这款模型可能就是OpenAI目前正在研发的GPT-5,按照前述预期,其有望在2025年底或2026年初推出。

  此前有爆料称,GPT-5将是具有52万亿参数的多模态模型,意味着其复杂性和性能将有显著提升。但这可能也会面临更大的技术和工程难度,时间成本也会更高。


标签