Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷歌、阿里、字节等科技巨头,纷纷入局。但无论画质如何进步,视频还是「哑巴」——你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?对不起,还得自己导音频。更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。直到今天,谷歌正式发布 Veo 3 AI 视频,终于能「开口说话」了——Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。
尽管凌晨才发布,Veo 3 已在社交网络掀起热潮,多个视频动辄数十万次播放,令人惊叹不已。雪地步伐清晰传来咯吱声,鸭子嘎嘎叫,烹饪滋滋作响,撒胡椒声......得益于模型对物理世界的深刻理解,所有声音非后期拼接,而是与画面实时同步生成。Veo 3 还能精准捕捉画面情绪,渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫,逼真到让人有点毛骨悚然。提示词:a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"