综合

综合
案例
公司
专题
e生活营销
华为
蒙牛
中秋
茅台
财报
甲亢哥
adidas
母亲节
肯德基
金瞳奖
泡泡玛特
麦当劳
AI
京东
清除历史
关注
登录


AI根据音频生成图像,准确率高得吓人
发布时间:2024-12-03 11:22
AI
人工智能
还记得之前可根据图片模拟图片场景中声音的人工智能工具吗?
最近,德克萨斯大学奥斯汀分校的助理教授 Yuhao Kang 及其同事开发的新型AI产品可以反过来生成图像了。
这些片段包括从北美、亚洲和欧洲城市和乡村街道的 YouTube 视频中截取的静态图像和环境声音。利用深度学习算法,系统不仅可以了解哪些声音与图像中的哪些项目相对应,还可以了解哪些声音质量与哪些视觉环境相对应。
训练完成后,系统的任务是仅根据 100 个其他街景视频录制的环境声音来生成图像——每个视频生成一张图像。
随后,一组人类评委观看了这些图像以及两张生成的其他街道图像,同时聆听了图像所基于的视频配乐。当要求他们辨别三幅图像中的哪一幅与视频配乐相对应时,他们平均准确率为 80%。
此外,当对生成的图像进行计算机分析时,发现其中的开阔天空、绿地和建筑物的相对比例与原始视频中的“高度相关”。
有了这样的应用,会开发出哪样的神奇操作呢?

意见反馈/举报
反馈/举报信息:
联系方式(选填):