1 月 2 日,元旦假期期间,DeepSeek 发布一篇全新论文,提出名为「流形约束超连接」(mHC)的训练框架,再次引发业内讨论。虽然 2025 年未见 DeepSeek 推出全新大模型,但这一年其持续迭代 DeepSeek V3.X,并公布多项关键技术,为下一代模型铺路。
论文聚焦深度学习中的「超连接」稳定性问题。研究指出,传统 HC 结构在大参数模型训练中容易出现数值放大、损失激增,难以长期稳定运行。DeepSeek 提出的 mHC 方法,通过约束放大总量,使训练过程保持可控。在 27B 参数模型测试中,训练时间仅小幅增加,复杂推理和阅读理解任务准确率却有明显提升。
更受关注的是,论文中提到相关结论已通过「内部大规模实验」进一步验证。业内普遍认为,这一表述暗示新一代基座模型 DeepSeek V4 的训练工作已经完成。结合去年 DeepSeek R1 的发布时间节点,多方预测,DeepSeek V4 有望在春节前后正式发布。(来源:快科技)
关注我们

