2025年5月,谷歌正式发布了其最新一代视频生成模型Veo 3,这一发布标志着AI视频生成技术迈入了一个全新的时代。与以往只能生成”哑巴”视频的模型不同,Veo 3首次实现了音画同步生成,让AI生成的视频角色真正能够”开口说话”。
回想起2023年那个让人印象深刻的威尔·史密斯吃面条视频——动作鬼畜、画面无声,那时的AI视频还处在相当原始的阶段。
而现在,Veo 3不仅能生成高质量的4K视频画面,更能理解视频中的原始像素信息,自动生成与画面完美同步的对话、音效和背景音乐。
这一突破的核心在于谷歌DeepMind团队开发的V2A(Video-to-Audio)技术。该技术能够将视频的视觉信息编码为语义信号,结合文本提示输入扩散模型,从而生成与画面匹配的完整音轨。简单来说,V2A就是Veo 3的”耳朵”和”声带”,让AI真正理解了视听结合的艺术。
可灵(Kling)是由快手公司开发的视频生成大模型,百度百科称,该模型可以生成高质量、长达2分钟(帧率30fp[…]