字节憋了个大招。9 月 24 日,字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成。这两款模型,一个名为 PixelDance(以下简称 P 模型),一个名为 Seaweed(以下简称 S 模型),不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。话不多说,先整几个视频让大家感受下:一位年轻女生微簇眉头,生气地戴上一副墨镜,这时,男主角入画,紧紧抱住了她。这段 10 秒的镜头中,人物面部表情变化自然,没有任何虚化崩坏。再如,一只金毛小狗在草地上追逐泡泡。 (AI 自动配乐)以及一个 3D 风格的可爱小女孩正在跳舞。 (AI 自动配乐)看来,字节这次是把攒了许久的绝活儿,一股脑全倒出来了。目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。我们也在第一时间拿到内测资格,接下来,就奉上新鲜出炉的一手实测。解锁多动作、多主体目前,市面上大部分视频生成模型,只能完成简单指令或者单一动作。而这次,豆包视频生成模型一顿升级,不仅可以遵循复杂 Prompt,还能捕捉多动作序列和主体互动。例如,梵高站在自己的画作前,捂嘴大笑起来,脸上的褶子都清晰可见;随即又秒变严肃,手缓缓落下,捋捋自己的小胡子。整套动作行云流水,表情自然逼真。再比如,我们输入 Prompt:两名宇航员行走在夜晚繁华的街道上。两名身穿宇航服的航天员,一前一后漫步在繁华街道上,身后人来人往,两侧的建筑亮起了绚丽的灯光和店招。众所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者惊现四条腿。而在豆包视频模型中,二人走路姿势正常,几乎与真人无异,没有模糊、扭曲,也没有出现各种诡异画面。我们还输入了一段形容词贼多的 Prompt:一只蜗牛在雨后的森林地面上缓缓爬行,它身后留下一条闪闪发光的粘液轨迹。蜗牛的触角谨慎地移动着,它的壳的每一段都有精细的纹理。一个摄像机跟踪着蜗牛的缓慢旅程。镜头非常接近,以至于蜗牛壳和身体上的水滴清晰可见,地面的细节也展现得非常清楚。