深夜重磅炸弹！Open AI放大招，GPT-4o丝滑如真人

密码登录短信登录企业用户

扫码登录

请打开广告门APP

点击“我的”页面右上角的扫码按钮

未注册过的手机号登录即创建广告门账号

综合

案例

公司

专题

大家都在看

2025百大品牌创新营销案例 AI营销五一宝马 TOPic 世界杯小红书瑞幸趋势海报华为广告 geo 母亲节 AI 短剧

历史记录清除历史

优秀代理商

更多代理公司

请输入搜索内容……

关注消息

微信分享

今日有单更多项目

AutoFull傲风电竞椅平面、TVC拍摄

预算：100万元

前沿科技企业品牌技术营销&整合传播

预算：20万元/项目（年度100万元）

汽车品牌年度官号双账号直播运营

预算：170万元

深夜重磅炸弹！Open AI放大招，GPT-4o丝滑如真人

发布时间：2024-05-15 10:09 浏览量：12300

OpenAI ChatGPT-4o AI

转载自公众号：Z Research Factory

本文来源于广告门 adquan.com

撰文 | 郑佳雨

设计 | TIAN

事件

5月14日，OpenAI发布GPT-4o模型，o源自词根omni，代表着全能，也揭示OpenAI在多模态的发展中更进一步。根据官网和已发布的信息，GPT-4o可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。其中文本和图像的功能从今天开始已经可以在ChatGPT中使用，万众瞩目的语音功能在未来几周才会面向Plus用户开放使用。

除了语音功能外，ChatGPT同时更新了一些新的小功能插件，本文将给大家展示全新的GPT-4o到底有什么魅力让大家惊叹不已，赞叹连连。

全新的语音聊天助手

Part.1

在 GPT-4o 之前， ChatGPT 已经可以进行语言聊天交流。其中，GPT-3.5的平均延迟为 2.8 秒，而GPT-4为5.4 秒。语音聊天助手由三个独立模型组成：第一个模型将音频转录为文本，第二个模型由GPT-3.5 或 GPT-4 接收文本并输出文本，第三个模型将该文本转换回音频。

但在这个过程GPT-4 会丢失大量信息——它无法直接辨别不同的音调、不同的讲话者以及背景噪音，也无法发出笑声、歌声或表达情感。

GPT-4o在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。GPT-4o 是OpenAI第一个结合了所有这些模式的模型，所以OpenAI宣称，GPT-4o仍然只是在探索该模型可以做什么及其局限性的尝试（we are still just scratching the surface of exploring what the model can do and its limitations）。[i]

下面几个视频是在OpenAI官网上呈现的用于展示GPT-4o强大功能的几个视频，看完后你也会感叹其语音助手的强大：

资料来源：OpenAI官网

这个视频乍一看是准爸爸的讲述了一个爸爸笑话来让GPT-4o来评价，则已经表现出了其超越GPT-4的一点，可以发出笑声；此外，识别出笑话的引申之意也足以说明其“聪明”之处。

资料来源：OpenAI官网

这个视频描述的是GPT-4o讲解石头剪刀布游戏的场景，除了提出石头剪刀布的游戏外，GPT-4o还像个奥运解说员一样解说这场游戏，并充当裁判判断输赢，展示了强大的视频解析能力与语言表达能力，也让人期待其以后能扮演的更多角色。

资料来源：OpenAI官网

这个视频向我们描述了一个更生动的情景-一个在盲人把GPT-4o当成其导游，从GPT-4o可以通过白金汉宫外飘扬的英国皇帝旗帜，判断出女王在宫殿内；以诗意的语言描绘出“春江水暖鸭先知”的画面；辨别打着橙光的出租车，如同你的伙伴。我们可以看出其对真实世界的了解已经非常熟稔，具体GPT-4o模型的提升在后文会提及。

探索GPT-4o全新的功能

Part.2

GPT-4o在其官网上展示了一些带探索的全新功能，话不多说，直接开始展示：