AI根据音频生成图像，准确率高得吓人 | 广告门

密码登录短信登录企业用户

扫码登录

请打开广告门APP

点击“我的”页面右上角的扫码按钮

未注册过的手机号登录即创建广告门账号

登录/注册即代表您阅读并同意用户协议和隐私政策

综合

综合

案例

公司

专题

大家都在看

2025百大品牌创新营销案例世界杯市场部海报汽车母亲节小红书 GEO 快手美团瑞幸 AI 端午 DeepSeek

历史记录清除历史

优秀代理商

更多代理公司

壹捌零集团

请输入搜索内容……

关注消息

点赞 5

收藏

评论

微信分享

今日有单更多项目

创维集团轻量化整合营销/事件营销项目招标

预算：500万元

宾法设计师之夜活动搭建执行

预算：8万元

武汉极地海洋度假区找地推服务商

预算：300万元/年

AI根据音频生成图像，准确率高得吓人

发布时间：2024-12-03 11:22 浏览量：8889

AI 人工智能

还记得之前可根据图片模拟图片场景中声音的人工智能工具吗？

最近，德克萨斯大学奥斯汀分校的助理教授 Yuhao Kang 及其同事开发的新型AI产品可以反过来生成图像了。

本文来源于广告门 adquan.com

这些片段包括从北美、亚洲和欧洲城市和乡村街道的 YouTube 视频中截取的静态图像和环境声音。利用深度学习算法，系统不仅可以了解哪些声音与图像中的哪些项目相对应，还可以了解哪些声音质量与哪些视觉环境相对应。

训练完成后，系统的任务是仅根据 100 个其他街景视频录制的环境声音来生成图像——每个视频生成一张图像。

随后，一组人类评委观看了这些图像以及两张生成的其他街道图像，同时聆听了图像所基于的视频配乐。当要求他们辨别三幅图像中的哪一幅与视频配乐相对应时，他们平均准确率为 80%。

此外，当对生成的图像进行计算机分析时，发现其中的开阔天空、绿地和建筑物的相对比例与原始视频中的“高度相关”。

有了这样的应用，会开发出哪样的神奇操作呢？

点赞 5

收藏

微信分享

意见反馈/举报

反馈/举报信息：

联系方式（选填）：

广告门一个行业的跌宕起伏

关于我们 | 联系我们 | 加入我们 | 营业资质

广告门网站及其文字内容归北京集媒互动科技股份有限公司所有，任何单位及个人未经许可，不得擅自转载使用。
本站(PC网站、手机网站、APP)部分文字及图片来源于网络，如侵犯到您的权益，请及时告知，本站将及时处理或撤换。

下载广告门APP

APP下载

关注广告门微信

微信公众号

关注广告门小红书

小红书

京ICP备14002652号-2 京ICP证140590号京公网安备11010502034278号

投诉举报电话（朝阳区人力社保局：57596212、65090445）服务热线：01085887919

广告门隶属于北京第三视观科技有限公司和北京集媒互动科技股份有限公司

Copyright 2007-2026 www.adquan.com all rights reserved