1月15日晚,中国大模型初创企业“生数科技”发布视频大模型Vidu 2.0,在速度、成本和效果都得到显著的提升。尤其是,新版本将视频生成时间缩短至10秒以内,较之前版本提升三倍。成本方面,推出的全新套餐让单秒视频成本降至4分钱,720P收费仅为行业平均的43%,极大降低了使用门槛。效果方面,无论是风格一致性、镜头运动流畅度,还是首尾帧性能、参考生视频稳定性,都有明显改善。
同日,中国大模型独角兽公司MiniMax宣布开源两款模型:基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。其中,MiniMax-Text-01在大多数任务上成功追平甚至超越了海外顶级闭源及SOTA开源模型,在MMLU基准测试中,与DeepSeek-V3同获88.5分,高于GPT-4o的85.7分,且在处理长文本时延迟更低、稳定性更强。而MiniMax- VL-01作为多模态模型,在多种视觉语言任务基准测试中性能与顶尖模型媲美,打破了以往美国在该领域的主导地位。
值得关注的是,MiniMax突破传统Transformer架构,创新性地采用了Lightning Attention架构。首次在大规模模型中成功实现了线性注意力机制,并巧妙地将MOE(Mixture-of-Experts)架构与Linear Attention相结合,形成了一种混合架构。从计算效率层面来看,它有效降低了计算复杂度,大幅提升了模型训练速度。在面对长文本与大规模数据这类复杂任务时,传统架构往往显得力不从心,而MiniMax的这一创新架构却能展现出强大的处理能力,为模型在复杂任务场景中的应用提供了坚实有力的支持。
前不久,DeepSeek凭借多头潜注意(MLA)和全新的DeepSeek MoE架构,在以低成本完成训练后,于各类测试中击败众多海外竞争对手,可谓一鸣惊人。此次MiniMax也依靠新构架,不仅突破了传统Transformer架构的局限,也是线性注意力机制的首次大规模实现。并且,MiniMax在发布这两款模型的同时就宣布开源,这在顶级大模型领域中是相当难得的。
另一方面,生数科技没有局限于竞争激烈的语言模型领域,而是另辟蹊径,专注于视频大模型赛道,其产品也因此被誉为“国产Sora”。此次,生数科技发布的Vidu最新版本,在生成速度、成本控制与生成效果上实现了全面提升。对于更多的大模型公司来说,无疑是不错的借鉴和启发。
此前,业界普遍认为中美大模型之间存在不小的差距,但从近期国产大模型在海外“刷屏”来看,国产大模型凭借创新思维和出色的产品,吸引了全球目光,并逐步拉近这一差距。然而,AI行业发展态势瞬息万变,其未来走向受算力、技术、应用等诸多复杂因素交织影响。尽管国产大模型已取得显著进展,但前路仍充满不确定性,后续发展仍面临诸多挑战与变数。