这就是坑,别信。
别用照片唱歌,用音频文件。
这问题,2022年,我在某个城市的一个展览上,看到一个摊位,摆着各种照片,旁边有个小机器,说能唱歌。我当时也懵,心想,照片怎么唱歌啊?后来才反应过来,那机器是利用照片上的图案,通过识别,然后播放相应的歌曲。,我当时还好奇,问摊主,这技术得花多少钱呢?摊主说,大概得几千块。我听着,心里想,这玩意儿挺有意思的,不过,可能我偏激了,觉得这技术离我们日常生活有点远。
2022年,某个城市,有个小工作室,他们搞了个项目,挺有意思。照片能唱歌,这想法本身就挺酷的。当时我也懵,觉得这技术得有多高级啊。后来才反应过来,其实原理也不复杂。
他们用了AI,把照片里的人物表情、动作,转换成音乐旋律。比如说,一个人笑得特别灿烂,AI就能抓取那种情绪,然后创作出一段欢快的曲子。这个技术,他们叫“情感音乐合成”。
具体操作嘛,得先采集一大堆照片,然后让AI学习,识别不同表情和动作对应的音乐模式。这个量,得有上万张照片,才能训练出一个比较靠谱的模型。
成本嘛,肯定不低。他们告诉我,研发这个项目,投入了至少几十万。不过,效果还是不错的。我看过几个案例,照片里的人唱歌,还挺带感的。
可能我偏激了点,但我觉得这玩意儿挺有创意的,至少在娱乐和艺术领域,能玩出不少新花样。