从最初对算力的盲目崇拜,到如今深挖算法架构与数据质量,配合成熟商业模式的思考,背后逻辑也正逐步“化繁为简”。
作者丨不寒
编辑丨刘欢
初始模型发布:Deepseek的诞生
有了底层硬件做支撑,幻方量化在内部孵化出一个小而精的AI部门。
这个团队由核心技术骨干梁文锋带领,他在量化金融与机器学习领域耕耘多年,在同僚眼中是个“既懂金融又懂AI”的全才。
2020年,为了更集中地研发AI大模型,梁文锋决定将这支团队独立出来,正式创办了Deepseek,标志着梁文锋和他的团队正式踏上了探索 AI 基础技术的新征程。
一切从零开始时,总是带着几分懵懂与热血。
彼时,AI 大模型尚处于“算力为王”的阶段,许多巨头都在加速“参数内卷”。
Deepseek 则没有盲目跟风:他们的第一款产品 DeepSeekCoder(2023年11月2日发布),主要定位于开发者工具和基础的商业应用。
尽管没有引起特别大的轰动,但它为Deepseek在数据收集、算法打磨及团队磨合上埋下了“更进一步”的潜能。
就这样,Deepseek以一种“慢火煲汤”的方式,稳扎稳打地走到了台前。
这个阶段,最关键的策略在于:把底层数据和算法路线夯实,再利用幻方量化的资源搭建算力基础,为后续升级迭代打下牢固根基。
点燃舆论热度的“预演”
时间回到2024年11月20日,Deepseek 发布了Deepseek-R1-Lite预览版。
2024年12月26日,Deepseek 正式发布了 Deepseek V3。当大家打开其技术报告时,最先被吸引的便是那“惊人的数字”:6710亿模型参数,同时训练数据规模更是达到14.8万亿tokens。
架构创新:稀疏MoE与FP8混合精度的协奏
数据质量与算力调度:多重优化的结果
质疑与对比——何以在“百模乱世”立足?
所谓“树大招风”,当DeepseekV3在技术指标上获得一片赞誉时,也迎来了不少质疑声。
有专家指出,Deepseek V3 的成本核算存在“未尽事宜”:比如最初使用 R1 模型来生成和清洗数据的费用,是否也包含在557.6万美元的数字里?
此外,大模型虽然训练阶段成本降低,但推理和运维依旧需要大量的GPU来支撑,后续费用能否继续保持“亲民”水准,仍需观望。
对此,Deepseek并没有大规模的公开辩驳。
除此之外,在技术圈,最喜欢的莫过于横向对比。
有人把Deepseek V3和GPT-4o、Claude-3.5-Sonnet-1022 等放在同一水平线上进行测试,结论各有侧重:
在代码场景与复杂数学 任务中,Deepseek V3 表现突出,尤其在算法设计或程序生成方面,甚至逼近或超越了国际一线模型。
在知识问答及长文本处理中,GPT-4o依旧稳居最优,在一些特别冗长、复杂的上下文检索与推理环节,DeepseekV3还需进一步打磨。
价格层面,Deepseek V3在百万tokens级别的推理费用只需要几元到十几元不等,远低于业内推测的 GPT-4o(往往在数十美元或更高)。
若企业对于成本极其敏感,Deepseek 无疑是一匹黑马。
可见,DeepseekV3的优势和短板都很鲜明:它以“低成本+在特定任务上的强表现”吸睛,却在通用性与稳定性方面尚未证明自己能全面赶超顶尖选手。
总的来说,DeepseekV3采取了稀疏MoE、FP8 混合精度等颇具创新的架构,在特定的数学、编码场景中展现了极高性能。
但要拓展到各种自然语言理解、多语种对话、内容审核等场景,仍需更多的领域训练与适配。
此外,大模型在长文本上下文保持、逻辑推断一致性以及安全合规性方面,往往是一道“难啃的骨头”。
对初创AI企业来说,这是个并不意外的过程。
结语:商业化与开源的交汇还需更多思考
当下,也有企业在逐步选择开源的道路,这里又不得不提昨天也同样开源的六小虎之一的Minimax,昨天推出的模型之一MiniMax-Text-01,以400万上下文窗口能力强势出圈,也应用MOE架构训练,很难不让人拿来做对比。
单从开源的角度来看,“开源”是一条赢得技术社区与口碑的捷径,但要想在商业化上站稳脚跟,还需要思考如何与企业应用有效结合。
模型仅仅“便宜+好用”还不够,企业更看重数据安全、稳定性以及深度定制化服务。
在金融领域,Deepseek与其“老东家”幻方量化能形成天然协同,或可顺势为一些金融科技、保险、投资机构提供定制化的AI解决方案。
毕竟,量化投资与大数据分析对大模型的实时性与稳定性都有极高要求,而这恰恰是Deepseek擅长的地方。
若能以此为突破口,在行业里形成良好示范效应,Deepseek即有可能从“开源社区的人气王”跃升为“行业级别的高端服务提供商”。
但在未来的行业落地中,也面临着不可回避的难题,模型通用性与推理成本。
尽管DeepseekV3强调了低训练成本,但未来最为棘手的还包括“推理成本”。
大模型投入商用后,每天海量的用户查询将带来巨大的计算需求,不仅需要强大的GPU集群,更要有一整套分布式调用和负载均衡机制。
若推理价格太高,用户可能“望而却步”;太低,企业又难以维持健康的营收。
如何在这两者间找到平衡,考验着 Deepseek的资源管理和商业策略。
另一个层面,通用性永远是大模型的“终极考验”。
如何解决“幻方量化”这种纯技术背景出身团队在多场景下的瓶颈,是Deepseek能否迈向“通用化”大模型的关键。
在不同文化背景、不同行业领域提出的问题能否自如应对、保持高准确度和自然度,是大模型走向大规模商用的门槛之一。
Deepseek若想扛起国产大模型的大旗,在通用性与“精专性”之间,还需找到独特的平衡点。
值得欣慰的是,Deepseek提升了训练速度与生成效率,其TPS(Tokens Per Second)从之前的20提升到60,达到了3倍增长。
可见,这个团队在工程实现与硬件利用率上功力深厚,也说明他们具备快速迭代的能力。
如果能将这种“硬核能力”继续延伸到更多任务场景和跨语言支持,Deepseek 便有机会在AI大模型的热潮中取得更广泛的应用。