
综合
案例
公司
专题


深夜重磅炸弹!Open AI放大招,GPT-4o丝滑如真人
发布时间:2024-05-15 10:09
转载自公众号:Z Research Factory
撰文 | 郑佳雨
设计 | TIAN
事件
5月14日,OpenAI发布GPT-4o模型,o源自词根omni,代表着全能,也揭示OpenAI在多模态的发展中更进一步。根据官网和已发布的信息,GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。其中文本和图像的功能从今天开始已经可以在ChatGPT中使用,万众瞩目的语音功能在未来几周才会面向Plus用户开放使用。
除了语音功能外,ChatGPT同时更新了一些新的小功能插件,本文将给大家展示全新的GPT-4o到底有什么魅力让大家惊叹不已,赞叹连连。
全新的语音聊天助手
Part.1
在 GPT-4o 之前, ChatGPT 已经可以进行语言聊天交流。其中,GPT-3.5的平均延迟为 2.8 秒,而GPT-4为5.4 秒。语音聊天助手由三个独立模型组成:第一个模型将音频转录为文本,第二个模型由GPT-3.5 或 GPT-4 接收文本并输出文本,第三个模型将该文本转换回音频。
但在这个过程GPT-4 会丢失大量信息——它无法直接辨别不同的音调、不同的讲话者以及背景噪音,也无法发出笑声、歌声或表达情感。
GPT-4o在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。GPT-4o 是OpenAI第一个结合了所有这些模式的模型,所以OpenAI宣称,GPT-4o仍然只是在探索该模型可以做什么及其局限性的尝试(we are still just scratching the surface of exploring what the model can do and its limitations)。[i]
下面几个视频是在OpenAI官网上呈现的用于展示GPT-4o强大功能的几个视频,看完后你也会感叹其语音助手的强大:
资料来源:OpenAI官网
这个视频乍一看是准爸爸的讲述了一个爸爸笑话来让GPT-4o来评价,则已经表现出了其超越GPT-4的一点,可以发出笑声;此外,识别出笑话的引申之意也足以说明其“聪明”之处。
资料来源:OpenAI官网
这个视频描述的是GPT-4o讲解石头剪刀布游戏的场景,除了提出石头剪刀布的游戏外,GPT-4o还像个奥运解说员一样解说这场游戏,并充当裁判判断输赢,展示了强大的视频解析能力与语言表达能力,也让人期待其以后能扮演的更多角色。
资料来源:OpenAI官网
这个视频向我们描述了一个更生动的情景-一个在盲人把GPT-4o当成其导游,从GPT-4o可以通过白金汉宫外飘扬的英国皇帝旗帜,判断出女王在宫殿内;以诗意的语言描绘出“春江水暖鸭先知”的画面;辨别打着橙光的出租车,如同你的伙伴。我们可以看出其对真实世界的了解已经非常熟稔,具体GPT-4o模型的提升在后文会提及。
探索GPT-4o全新的功能
Part.2
GPT-4o在其官网上展示了一些带探索的全新功能,话不多说,直接开始展示:
资料来源:OpenAI官网
这个功能叫做机器人作家的博客,你输入自己想讲述的内容,会看到屏幕上机器的手在帮你打印出这些文字。
资料来源:OpenAI官网
这个功能是海报设计,输入两张偏生活照的图片以及风格,就可以获得想要的电影海报。人脸背后像是层层的城墙,仿佛两个人不能逃离城墙之外,让人对剧情已经产生些许遐想。
资料来源:OpenAI官网
这个功能是真人头像卡通化,可以看出GPT-4o的动手能力较以前更强,虽然还不是GPT-5,但全方面发力的GPT-4o的能力到底增强了多少呢?
GPT-4o模型评估
Part.3
资料来源:OpenAI官网
该图片展示了GPT-4o在文本评估中的卓越表现,其中GPT-4o更是在MMLU基准下,拿到了88.7%的新高分。(MMLU是了一种新的测试方法,用于衡量文本模型的多任务准确性。该测试涵盖包括基本数学、美国历史、计算机科学、法律等多个领域。)
资料来源:OpenAI官网
该图片展示了GPT-4o对比Whisper在语音识别端的进步,值得注意的是,GPT-4o在资源材料相对匮乏的语言中,取得了更为明显的进步。
资料来源:OpenAI官网
该图片展示了GPT-4o在音频翻译性能上创下了新的领先地位,并在MLS基准测试中优于Meta的SemilessM4T-v2以及Google的Gemini。
除此外GPT-4o还在M3-Exam测试,视觉理解评估等方面取得进步,这也让我们更畅想GPT-5与AGI时代的到来。

意见反馈/举报
反馈/举报信息:
联系方式(选填):