综合
综合
案例
公司
专题
李奥贝纳
十三邀
Jellycat
春节
新年
汽车
脱口秀
麦当劳
TikTok
年终盘点
贾冰
小红书
年度案例
情人节
清除历史
请输入搜索内容……
关注
登录
点赞
3
收藏
评论
微信分享
AI根据音频生成图像,准确率高得吓人
发布时间:2024-12-03 11:22
AI
人工智能
还记得之前可根据图片模拟图片场景中声音的人工智能工具吗?
最近,德克萨斯大学奥斯汀分校的助理教授 Yuhao Kang 及其同事开发的新型AI产品可以反过来生成图像了。
这些片段包括从北美、亚洲和欧洲城市和乡村街道的 YouTube 视频中截取的静态图像和环境声音。利用深度学习算法,系统不仅可以了解哪些声音与图像中的哪些项目相对应,还可以了解哪些声音质量与哪些视觉环境相对应。
训练完成后,系统的任务是仅根据 100 个其他街景视频录制的环境声音来生成图像——每个视频生成一张图像。
随后,一组人类评委观看了这些图像以及两张生成的其他街道图像,同时聆听了图像所基于的视频配乐。当要求他们辨别三幅图像中的哪一幅与视频配乐相对应时,他们平均准确率为 80%。
此外,当对生成的图像进行计算机分析时,发现其中的开阔天空、绿地和建筑物的相对比例与原始视频中的“高度相关”。
有了这样的应用,会开发出哪样的神奇操作呢?
意见反馈/举报
反馈/举报信息:
联系方式(选填):