添加至收藏夹

X

新建收藏夹

完成

新建收藏夹

X

确定

取消

深夜重磅炸弹!Open AI放大招,GPT-4o丝滑如真人

作者: 源泉

2024-05-15 10:09 浏览 · 4035

分享

收藏(5)

转载自公众号:Z Research Factory



撰文 | 郑佳雨

设计 | TIAN


事件

"

5月14日,OpenAI发布GPT-4o模型,o源自词根omni,代表着全能,也揭示OpenAI在多模态的发展中更进一步。根据官网和已发布的信息,GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。其中文本和图像的功能从今天开始已经可以在ChatGPT中使用,万众瞩目的语音功能在未来几周才会面向Plus用户开放使用。


除了语音功能外,ChatGPT同时更新了一些新的小功能插件,本文将给大家展示全新的GPT-4o到底有什么魅力让大家惊叹不已,赞叹连连。


"

全新的语音聊天助手

Part.1



在 GPT-4o 之前, ChatGPT 已经可以进行语言聊天交流。其中,GPT-3.5的平均延迟为 2.8 秒,而GPT-4为5.4 秒。语音聊天助手由三个独立模型组成:第一个模型将音频转录为文本,第二个模型由GPT-3.5 或 GPT-4 接收文本并输出文本,第三个模型将该文本转换回音频。


但在这个过程GPT-4 会丢失大量信息——它无法直接辨别不同的音调、不同的讲话者以及背景噪音,也无法发出笑声、歌声或表达情感。


GPT-4o在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。GPT-4o 是OpenAI第一个结合了所有这些模式的模型,所以OpenAI宣称,GPT-4o仍然只是在探索该模型可以做什么及其局限性的尝试(we are still just scratching the surface of exploring what the model can do and its limitations)。[i]


下面几个视频是在OpenAI官网上呈现的用于展示GPT-4o强大功能的几个视频,看完后你也会感叹其语音助手的强大:


资料来源:OpenAI官网


这个视频乍一看是准爸爸的讲述了一个爸爸笑话来让GPT-4o来评价,则已经表现出了其超越GPT-4的一点,可以发出笑声;此外,识别出笑话的引申之意也足以说明其“聪明”之处。


资料来源:OpenAI官网


这个视频描述的是GPT-4o讲解石头剪刀布游戏的场景,除了提出石头剪刀布的游戏外,GPT-4o还像个奥运解说员一样解说这场游戏,并充当裁判判断输赢,展示了强大的视频解析能力与语言表达能力,也让人期待其以后能扮演的更多角色。


资料来源:OpenAI官网


这个视频向我们描述了一个更生动的情景-一个在盲人把GPT-4o当成其导游,从GPT-4o可以通过白金汉宫外飘扬的英国皇帝旗帜,判断出女王在宫殿内;以诗意的语言描绘出“春江水暖鸭先知”的画面;辨别打着橙光的出租车,如同你的伙伴。我们可以看出其对真实世界的了解已经非常熟稔,具体GPT-4o模型的提升在后文会提及。


探索GPT-4o全新的功能

Part.2



GPT-4o在其官网上展示了一些带探索的全新功能,话不多说,直接开始展示:


资料来源:OpenAI官网


这个功能叫做机器人作家的博客,你输入自己想讲述的内容,会看到屏幕上机器的手在帮你打印出这些文字。


资料来源:OpenAI官网


这个功能是海报设计,输入两张偏生活照的图片以及风格,就可以获得想要的电影海报。人脸背后像是层层的城墙,仿佛两个人不能逃离城墙之外,让人对剧情已经产生些许遐想。



资料来源:OpenAI官网


这个功能是真人头像卡通化,可以看出GPT-4o的动手能力较以前更强,虽然还不是GPT-5,但全方面发力的GPT-4o的能力到底增强了多少呢?


GPT-4o模型评估

Part.3



OpenAI官网揭示了对比GPT-4等大语言模型,GPT-4o在几种实际应用场景的表现:


资料来源:OpenAI官网


该图片展示了GPT-4o在文本评估中的卓越表现,其中GPT-4o更是在MMLU基准下,拿到了88.7%的新高分。(MMLU是了一种新的测试方法,用于衡量文本模型的多任务准确性。该测试涵盖包括基本数学、美国历史、计算机科学、法律等多个领域。)


资料来源:OpenAI官网


该图片展示了GPT-4o对比Whisper在语音识别端的进步,值得注意的是,GPT-4o在资源材料相对匮乏的语言中,取得了更为明显的进步。


资料来源:OpenAI官网


该图片展示了GPT-4o在音频翻译性能上创下了新的领先地位,并在MLS基准测试中优于Meta的SemilessM4T-v2以及Google的Gemini。


除此外GPT-4o还在M3-Exam测试,视觉理解评估等方面取得进步,这也让我们更畅想GPT-5与AGI时代的到来。

这文章很赞

收藏(5)

分享

评论(0)

热门招聘查看更多

  •  
回到顶部
意见反馈
二维码 下载APP
关闭

意见反馈

关闭

案例认领

用户注册

已有账号?
手机

验证码

关闭

用户注册

用户

密码

密码

关闭

手机号重复绑定

您的手机号,已绑定过其他账号

请确定您的下一步操作:

不修改手机号绑定
清除之前账号的手机号绑定,将手机号绑定到当前账号

清除之前账号的手机绑定,可能会导致您无法登录之前账号

验证遇到问题?
请发送邮件到i@adquan.com联系管理员

忘记密码

密码

密码

无法找回? 点此申诉

关闭
关闭
APP扫码,安全登录

使用广告门APP在我的页面扫码登录

关闭

账号申诉

已有账号? 立即登录
用户名
手机号
邮箱

关闭

忘记密码

手机号

验证码

返回登录

无法找回? 点此申诉

关闭

信息已提交:

我们会在1-3个工作日内审核完毕,并用
邮件通知您,请耐心等待,谢谢
关闭