商业头条 No.61 | DeepSeek 风暴席卷 AI 产业链

2025 年伊始,AI 领域被一股强大的力量所震撼,DeepSeek 以迅猛之势闯入大众视野,其影响如涟漪般迅速扩散至整个 AI 产业链。它宛如一把双刃剑,既是竞争对手的巨大威胁,又是推动行业前行的强劲东风。

DeepSeek 引发行业热潮

蛇年除夕夜,当大多数人沉浸在阖家团圆的欢乐氛围中时,硅基流动创始人袁进辉却带领技术团队争分夺秒地开会。他们正全力攻克 DeepSeek 模型在国产芯片上的适配难题。经过连续三天三夜的艰苦奋战,在华为和 DeepSeek 的协同努力下,2 月 1 日,基于国产芯片服务的 DeepSeek-V3 和 DeepSeek-R1 成功上线。此时,距离 DeepSeek AI 智能助手同时登顶中美两国 App Store 免费应用榜,仅仅过去了不到一周时间。

回顾过往,似乎每年春节前后,AI 领域都会迎来一轮热潮。2023 年,ChatGPT 如同平地惊雷,在国内引发了大模型创业的热潮;2024 年,视频生成模型 Sora 的惊艳亮相,令全球为之侧目。而 2025 年,DeepSeek 成为了这场盛宴的主角。这家技术实力雄厚却行事极为低调的中国公司,悄然间改写了 AI 大模型的世界版图。

2024 年底至 2025 年初,DeepSeek 接连推出新一代 MoE 模型 V3 以及推理模型 R1。这两款模型凭借 “高性能、低训练成本” 和 “对齐 OpenAI o1” 这两大显著优势,在海内外市场引发了轰动效应。据 Xsignal 数据显示,截至 2 月 8 日,DeepSeek 国内 APP 端日活达到 3494 万,海外 APP 端日活更是高达 3685 万。上线时间不足一个月,便超越了众多同类应用,与 ChatGPT 的差距也在不断缩小。

冲击与机遇并存

冲击行业巨头

DeepSeek 的异军突起,首先让硅谷科技巨头 Meta 感受到了前所未有的压力。一直以来,Meta 开发的 Llama 系列模型在全球开源大模型领域占据着领先地位。然而,DeepSeek 仅用了不到其十分之一的成本,就打造出了性能更为卓越的模型,并且选择免费开源。这一举措使得 Meta 在模型研发上的巨额成本投入显得有些尴尬。

紧接着,英伟达也未能幸免。由于市场担忧 DeepSeek 带来的低成本模式会大幅减少对算力的需求,英伟达市值一夜之间蒸发近 6000 亿美元,创下了美股单日最大跌幅纪录。受此影响,一众美股芯片股也纷纷下跌。

行业积极响应

不过,冲击的另一面,是几乎所有与大模型行业相关的企业,都敏锐地嗅到了其中蕴含的巨大机遇。他们在春节期间纷纷投身到这场 DeepSeek 引发的巨浪之中,期望能够分得一杯羹。全球主流云厂商迅速跟进,无一例外地部署了 DeepSeek API;除华为昇腾外,多家国产 AI 芯片厂商也宣布适配 DeepSeek 不同尺寸的模型。

国内投资者的热情同样被瞬间点燃。由 AI 产业链公司构成的 DeepSeek 概念股,涵盖了算力基础设施、大模型技术与算法、应用场景等相关领域,在二级市场连续多日呈现普涨态势。

而曾经备受瞩目的大模型 “六小虎”,如今却在聚光灯外陷入了困境。随着 DeepSeek 的崛起,行业对 “六小虎” 的质疑声再度高涨。在模型影响力、技术认可度以及产品用户规模等关键维度上,他们似乎都已全面落后。但在一年之前,“六小虎” 还是资本眼中有望与 OpenAI 一较高下的中国初创力量。

探寻 DeepSeek 成功密码

“来自东方的神秘力量”

在今年的达沃斯论坛上,DeepSeek 成为了众多老外热议的话题,无论是否身处科技圈,许多人都对这家中国公司充满了好奇。在 Fusion Fund 内部,就连在 AI 和深度学习领域拥有超过 20 年经验的合伙人 David Gerster,也不断向创始合伙人张璐打听 DeepSeek 的相关信息。

DeepSeek 成立于 2023 年,其前身是知名量化基金幻方量化,并且至今尚未进行任何外部融资。公司创始人梁文锋出生于 1985 年,来自广东湛江,2010 年毕业于浙江大学,此后长期从事量化交易工作,并创立了杭州幻方。

自成立以来,DeepSeek 一直保持着低调的姿态,几乎没有进行过对外宣传。然而,在 AI 技术圈内,自去年年中起,该公司就凭借 DeepSeek-V2 在 MLA 等方面的创新,获得了业内的高度认可,被硅谷视为一股 “来自东方的神秘力量”。

张璐透露,早在半年多以前,OpenAI 和 Anthropic 的员工就已经开始谈论 DeepSeek。当时,主要是因为它在开源生态中表现得极为活跃,而行业对于新模型在架构层面的创新向来格外关注。

在 Meta 从事大模型相关工作的华人员工马克(化名)也表示,他们去年就已经关注到了 DeepSeek,但当时普遍认为 “这只是中国第一梯队的模型,尚未达到世界级水平,与 OpenAI 等公司的模型相比仍有较大差距”。

但 DeepSeek-V3 和 DeepSeek-R1 的推出,彻底改变了这一局面。尤其是 DeepSeek-R1,作为首个复现 OpenAI o1 推理模型能力的开源大模型,并且完全免费,成功引爆了用户端。

DeepSeek 身上叠加的四层 “Buff”,让硅谷的华人工程师们赞叹不已:纯中国团队打造、算力资源有限、模型效果打败或持平美国最先进模型,并且完全开源。

马克和他的同事们对此展开了深入讨论,他们的核心观点是:“如果 DeepSeek 仅花费如此少的资金就能训练出如此优秀的模型,那我们投入如此巨额的资金又在做什么呢?”

此前,Meta 员工在美国匿名职场社区上爆料称,公司已经成立了四个专门的研究小组,深入分析研究 DeepSeek V3 模型的工作原理。Meta 内部认为,DeepSeek V3 的综合性能已经超越了 Llama 3,甚至担心计划推出的下一代模型 Llama 4 也有 “落后的可能”。

张璐推断:“Llama 4 一定会参考 DeepSeek 现在的算法模型。” 事实上,当前整个行业都在研究 DeepSeek 成功的秘诀。

据 DeepSeek 开发团队介绍,V3 模型采用了一系列创新技术来降低成本,包括模型压缩、多头潜在注意力机制(MLA)、混合专家模型(MoE)、FP8 混合精度训练等。而 R1 模型则在组相对策略优化算法(GRPO)方面取得了重要创新。

摩尔线程市场生态高级总监吕其恒表示,DeepSeek 的核心突破在于算法优化和算力效率的提升。虽然模型项目已经开源,但公司独有的这些技术具有极高的壁垒,需要大量工程师团队投入大量精力进行研发和工程优化。其他公司短期内很难直接复制这些技术,但行业依然能够从 DeepSeek 的创新中汲取灵感。

张璐在硅谷的亲身感受是,此前 OpenAI 和 Anthropic 在谈及 DeepSeek 时,并未将其视为能够超越自己的对手。但如今,“尤其是 OpenAI,可能会把 DeepSeek 当作一个强有力的竞争对手”。OpenAI CEO 山姆・奥特曼近期在一场播客中也明确表示,有计划与 DeepSeek 团队进行交流。

搅动算力市场

如今,以 “鲸鱼” 为标志的 DeepSeek,已成为搅动全球科技市场的 “鲶鱼”。中信建投证券研究所所长武超则指出,DeepSeek 的 “鲶鱼效应” 最直观的体现,便是掀起了 “AI 降本浪潮”,这意味着未来大家能够以更低的成本开发大模型。

根据 DeepSeek 官方论文,训练 V3 模型使用了 2048 张英伟达 H800 GPU,完整训练消耗了 278.8 万个 GPU 小时。按照租赁价格每小时 2 美元计算,成本约为 557.6 万美元。

与之形成鲜明对比的是,Llama-3.1 动用了超过 1.6 万张英伟达 H100GPU 进行训练,训练成本高达数亿美元。而 GPT-4o 模型的训练成本,业内估计在 1 亿美元左右。

Anthropic 创始人 Dario Amodei 在个人播客网站上发文称,虽然 “用 600 万美元实现数十亿美元投入效果” 的说法在传播过程中被严重夸大,但 DeepSeek 所做出的创新确实显著降低了成本。更让硅谷感到震惊的是,在全球都在努力降低 AI 模型成本的背景下,“第一个成功做到的是一家中国公司”。

这一情况再次引发了华尔街对 AI 算力泡沫的恐慌。投资者担心,未来 DeepSeek 的低成本模式一旦得到广泛推广,科技公司是否还需要持续大量购入英伟达先进的 AI 芯片来支持模型开发?

在美股市场,1 月 27 日芯片股遭受重挫,英伟达跌超 17%,台积电跌超 13%,阿斯麦跌 5%。

不过,英伟达在股价暴跌后的次日发表声明强调,在中国大陆 AI 算力资源受限的情况下,DeepSeek 主要在 AI 模型推理阶段运用了创新技术,但推理过程仍然需要大量英伟达 GPU 及配套的高性能网络技术。DeepSeek 的进步不仅不意味着算力过剩,“反而证明市场需要更多 AI 芯片”。

近期,市场上流行用经济学经典理论 “杰文斯悖论” 来解释算力市场的供需变化。该理论指出,一项技术创新在降低成本、提高效率的同时,资源消耗非但不会减少,反而会因成本降低和应用范围扩大而急剧增加。

事实上,微软、亚马逊、Meta、谷歌等巨头在各自的财报会上均表示,将大幅增加 2025 年的资本开支,重点投资数据中心等 AI 基建项目。这四家巨头 2025 年资本支出总额预计将超过 3200 亿美元,总增速约为 30%。

此外,OpenAI、软银、甲骨文等多家公司联合发起了 “星际之门” AI 基建计划(The Stargate Project)。该计划预计在 2029 年之前,在算力市场投资高达 5000 亿美元,第一笔初始投资为 1000 亿美元。

英国 GPU 公司 Imagination 产品管理副总裁 Dennis Laudick 表示,DeepSeek 所做的创新属于降低人工智能功耗与优化效率的进步。“任何工作负载的简化都能让算力资源得到更充分利用,未来对算力的需求将持续超过供给。”

武超则认为:“现在就连 DeepSeek 自己都因为服务器不够用,导致网站频繁卡顿。事实上,算力市场在相当长的一段时间内,都将处于高增长扩容的周期。” 因此,无论是从巨头资本开支的基本盘,还是从更多公司对推理端算力的新增投资来看,算力泡沫都没有破裂的迹象。

在业内人士看来,DeepSeek 的创新对于国产算力芯片而言是一大利好。例如,DeepSeek 采用的 FP8 混合精度算力训练,这种混合低精度的训练方法在一定程度上能够弥补国内芯片硬件性能的不足,为软件算法创新提供了更多空间。像摩尔线程就已将相应技术引入产品中。

AI 六小虎面临挑战

月之暗面联合创始人张予彤不久前更新了一条朋友圈,分享了 Kimi 用户量增长图,并配文称 “很高兴 Kimi 新版本上线后用户量又创新高”。

鲜为人知的是,月之暗面最新版大模型 Kimi1.5 与 DeepSeek-R1 在同一天发布,但却被 DeepSeek 的巨大声浪所淹没。月之暗面的总部与 DeepSeek 北京团队所在的融科资讯中心,直线距离不足 1 公里。去年春节,DeepSeek 还鲜有人知,而月之暗面因获得阿里的巨额投资而声名大噪,跻身大模型创业 “六小虎” 的头部阵营。

然而,仅仅一年过去,DeepSeek 在技术创新、产品认知和企业影响力等方面一飞冲天,登上了世界级的舞台。而 “六小虎” 们却各自面临着难题。

李扬(化名)整个蛇年春节都在加班,他在 “六小虎” 其中一家公司从事 AI infra 的优化工作。在他看来,DeepSeek-V3 的 MFU(模型算力利用率)在其模型架构下是合理的。但作为成本控制的关键环节,他所在团队的工作压力依然增大。

多名 “六小虎” 员工透露,他们仅在除夕和大年初一休假,其余时间都在紧张工作。据了解,其中一家公司的算法团队几乎整个假期都在加速推进自己推理模型的参数 scale up。

一位在 “六小虎” 担任技术负责人的人士表示,最近工作氛围明显变得紧张,因为大家看到了大众对 AI 的高期望。公司总体上会保持原有的迭代节奏,“但有些项目的优先级可能会有所调整”。

一位大模型领域投资人指出,由于 DeepSeek 的爆火,“六小虎” 接下来的融资和估值将全面受到影响。据其了解,参投某大模型公司的一家国资,已经在内部对当初的投资决策提出质疑,“这其实也是一种问责”。

目前,“六小虎” 迫切需要走出具有自身核心差异化的路线。如果不继续投入资金进行创新,他们的预训练模型和推理模型将难以与 DeepSeek 竞争;但如果不进行预训练,又难以支撑下一轮融资的估值。

更为艰难的是,DeepSeek 极有可能冲击闭源生态。朱啸虎直言,在中国,只有互联网大厂才有继续投入资源发展闭源模型的意义。

事实上,就连互联网大厂坚守的闭源生态堡垒也出现了松动。一直坚定走闭源路线的百度,于 2 月 14 日正式宣布,将在未来几个月推出文心大模型 4.5 系列,并从 6 月 30 日起首次开源。

去年,在业内关于模型开源与闭源模式的争论最为激烈之时,百度创始人李彦宏曾在多个场合公开力挺闭源模式,直言 “开源模型是智商税”。然而,短短一年时间,无论百度当下的开源决策是主动还是被动,如此 180 度的大转弯,都促使行业重新审视开源与闭源模式的未来走向。

“中国闭源大模型几乎已陷入死局。” 前述投资人如此评价。

各方积极分羹 DeepSeek 红利

在 DeepSeek 今年春节爆火的一个月前,梁文锋曾询问袁进辉,是否考虑在硅基流动的平台上部署 DeepSeek-V3 模型。袁进辉创办的硅基流动主要提供大模型云服务平台,为生成式 AI 搭建基础设施。

当时梁文锋建议,如果决定部署,最好准备 80 台 H100 服务器。袁进辉经过计算,发现一个月的成本将高达五六百万元,于是放弃了这一计划。然而,转眼间 DeepSeek 火遍全球,袁进辉懊悔不已,直呼 “决策失误,欲哭无泪”。

看着 DeepSeek 不断创造奇迹,袁进辉内心焦急却苦无资源。关键时刻,一位同事突发奇想:“用国产卡吧!” 这一想法得到了华为昇腾云团队的大力支持,才有了前文提到的除夕加班上线基于国产芯片服务的 DeepSeek-V3 和 DeepSeek-R1 的故事。

此后,袁进辉在社交平台上化身为活跃的 “客服号”,不断反馈产品体验的不足之处,并积极规划改进措施。由于抓住了时机,卷入了 DeepSeek 的流量漩涡,袁进辉深切感受到 “传播速度太快了、用户太多了、需求太大了”。

参与 DeepSeek 的狂欢,已成为行业内的共识,尤其是云厂商。当 DeepSeek 因访问量过大,频繁出现 “服务器繁忙,请稍后再试” 的提示时,大量无处可去的流量转向了接入 DeepSeek 的云平台。

这一次,外企的行动更为迅速。1 月的最后两天,微软 Azure、亚马逊 AWS 先后宣布上线 DeepSeek-R1,谷歌云也随即发布了 R1 部署指南。2 月的第一周,除硅基流动及华为昇腾云外,腾讯云、阿里云、百度智能云、火山引擎、京东云等厂商,均宣布接入 R1 推理模型,部分厂商还同时引入了 V3。

不仅如此,此前在 AI 领域声量相对较低的三大电信运营商 —— 中国移动、中国电信、中国联通,也相继在其云服务中上线 DeepSeek 模型。

在芯片厂商方面,英伟达 NVIDIA NIM 引入 R1,AMD 则将 V3 集成到 Instinct MI300X GPU 上,并针对 AI 推理进行了优化。国产芯片厂商摩尔线程、沐曦、壁仞、天数智芯等也集体宣布部署适配 DeepSeek 模型。

就连其他大模型同行,也开始接入 DeepSeek。昆仑万维便是最早行动的一批。该公司不仅拥有自己的天工大模型,还打造了推理模型。但昆仑万维依然在其 “天工 AI” 平台上线了 “DeepSeekR1 + 联网搜索” 功能。

昆仑万维 CEO 方汉心态开放,他表示公司并非因受到冲击才调整策略,而是坚信这样做能够提升用户体验。他观察到,在加入 R1 之后,用户使用天工 AI 搜索的平均时长明显增加。

令人意外的是,腾讯元宝在拥有自有混元大模型的情况下,也接入了 DeepSeek R1。这也是第一个在其 C 端 AI 助手中接入 R1 的互联网大厂。

AI 产业链迎来东风

DeepSeek 突然在全球走红后,美国政界再次出现呼吁对华实施更强力芯片管制的声音。但也有人反思,或许正是高端芯片管制,倒逼 DeepSeek 在算法架构和工程方面做出了创新。

方汉认为,算力限制只能在短期内形成一定的壁垒。从长期来看,当中国的算力受到限制时,中国研究人员优化硬件效率的动力只会更加强劲。“万一 Scaling Law 最终真的依靠算法而非算力来实现,美国人的限制策略可能会落空。” 方汉说。

受 DeepSeek 的启发,方汉已考虑在昆仑万维后续的模型训练中应用 GPRO 等算法。他甚至将其视为 “T0 级别” 的创新,“未来如何将其推广到除数学和编程之外的其他垂类领域,以及其他模态,我认为这极具价值。”

除了像昆仑万维这样的企业,更多的下游应用公司也将搭乘 DeepSeek 的东风。

以教育公司为例,好未来、网易有道、云学堂、中公教育、猿辅导、读书郎等众多教育机构近期密集接入 DeepSeek,业务范围涵盖线上教育、职业培训、个性化学习到企业员工培训等各个领域。有行业人士将此形容为 “教育 AI 真正的诺曼底时刻”。

为您推荐