上周,当各大人工智能公司的负责人齐聚瑞士阿尔卑斯山时,所有人的目光都投向了东方。在达沃斯世界经济论坛的小组讨论和私下谈话中,科技高管们强调,美国及其盟友需要建立更多的数据中心,并在监管方面取得适当的平衡,以便在人工智能发展方面领先于中国。
Alphabet Inc. 总裁兼首席投资官露丝·波拉特 (Ruth Porat) 在活动上对彭博新闻社表示: “我们的模型可能领先一年多。”但她补充说,“美国保持优势并非定局”。
即便如此,这种预测也可能过于乐观。同一周,一家鲜为人知的中国人工智能初创公司 DeepSeek 发布了一款名为 R1 的新型开源人工智能模型,该模型可以模仿人类的推理方式。该公司表示,R1 在一系列行业基准测试中,包括数学任务和常识,都与美国领先的开发商相媲美,甚至超越了它们——而且成本只是后者的一小部分。到周末,DeepSeek 在备受关注的人工智能系统排行榜 Chatbot Arena 上的排名已经攀升,科技界的知名人士马克·安德森 (Marc Andreessen) 称该产品为“人工智能的斯普特尼克时刻”。
现在,R1 推出的余波迅速传遍美国,科技行业试图了解 DeepSeek 是如何实现这一壮举的,以及这家新贵是否像其声称的那样便宜。已经有人在怀疑这家中国新贵在西方技术的基础上开发了聊天机器人,从而避开了开发大型语言模型的巨额成本。
在旧金山,人工智能高管和员工正在紧急分析 DeepSeek 的技术。据知情人士透露,OpenAI 的一些员工正在试图弄清楚 DeepSeek 究竟是如何发布这样一个模型的。由于涉及私人事务,这些知情人士要求匿名。另一位知情人士表示,公司内部有一种感觉,即 OpenAI 需要非常认真地对待中国公司的发展,因为这为他们创新和改进现有模型提供了机会。一位知情人士表示,OpenAI 首席执行官 Sam Altman 最近告诉员工,此次发布标志着这家初创公司的重大格局转变。
“DeepSeek 的 R1 是一款令人印象深刻的模型,”Altman在 X 上首次公开回应道。“我们显然会提供更好的模型,而且有新的竞争对手真是令人振奋!”
据知情人士透露,同样专注于开源 AI 模型的 Meta Platforms Inc. 已成立了一个内部团队,专注于分析 DeepSeek,以更好地了解其构建方式和功能。知情人士称,该公司已组建了类似的工作组来评估其他主要竞争对手,例如 OpenAI 的 GPT-4 模型和谷歌的 Gemini。
几乎在一夜之间,DeepSeek 就颠覆了硅谷内部关于开发人工智能的经济性、开发该技术的最佳技术方法以及美国领先于中国竞争对手的程度的许多假设。自 ChatGPT 引发全球人工智能热潮以来的两年多时间里,业界一直认为,人工智能的发展之路很大程度上取决于投入巨资从 Nvidia Corp. 等公司购买更先进的芯片,以及用于容纳这些芯片的越来越庞大的数据中心。
美国总统唐纳德·特朗普对这一进展表示欢迎,称其“很好,因为你不必花那么多钱。”行业领导者英伟达在 DeepSeek 首次亮相后股价遭受重创,该公司也在周一的一份声明中称赞这是一项“卓越的人工智能进步”。
特朗普补充道:“中国公司发布DeepSeek AI应该给我们的行业敲响警钟,我们需要全神贯注于竞争才能取胜。”
让问题更加复杂的是,就在几天前,特朗普刚刚支持 OpenAI、软银集团和甲骨文公司成立一家1000 亿美元的合资企业,通过投资数据中心和其他物理基础设施来提高美国的竞争力。现在,人们对巨额人工智能预算的合理性提出了新的质疑。
“这是一种范式转变,”Databricks Inc. 首席执行官 Ali Ghodsi 表示。“这些能够推理的模型生产起来要便宜得多,你将看到它变得民主化。你会看到来自世界意想不到的角落的创新。”
DeepSeek 的崛起
对于梁文锋来说,DeepSeek 最初是一个副业。现年 40 岁的梁文锋于 2023 年创建了 DeepSeek,作为其对冲基金浙江海飞资产管理公司 AI 部门的一个分支。
梁小平能够利用一些本地人才和至关重要的芯片。在美国实施出口限制之前,他已经开始储存大约 10,000 块 Nvidia A100 GPU(一种用于训练 AI 系统的关键技术的旧版本)。他表示,他的大多数顶尖研究人员都是中国顶尖大学的应届毕业生,他强调中国需要发展自己的国内生态系统。
DeepSeek 迅速发布了多个开源 AI 模型,第一个是 2023 年底的 DeepSeek LLM。两个更先进的模型 V2 和 V3 分别于 2024 年中旬和末问世。然而,真正引起共鸣的是 1 月中旬发布的 DeepSeek R1 模型。
与 OpenAI、谷歌和 Anthropic 的一些最新模型一样,R1 旨在模仿人类思考问题的方式,即在回答用户问题之前花时间计算答案。然而,DeepSeek 的版本在效率上有所不同。其背后的团队提出了一些简单但关键的创新,例如找到方法让他们能够使用的计算机芯片发挥更大的作用。另一项突破是:大量依赖一种称为强化学习的技术,该技术奖励系统回答正确的问题,惩罚回答错误的系统。
DeepSeek 的应用在美国用户中很受欢迎,部分原因在于它是一款和蔼可亲、听起来有点尴尬的聊天机器人,它会在深入研究结果之前详细展示它计划如何回答用户的问题。这种方法比 OpenAI 最新的推理模型要详细得多。与 OpenAI 不同,DeepSeek 目前提供免费服务,OpenAI每月收费高达 200 美元,可无限制使用其最先进的推理模型等功能。但 DeepSeek 也会审查在中国敏感的话题。例如,询问中国文化大革命可能会引发这样的反应:“抱歉,这超出了我目前的范围。我们谈点别的吧。”
Ghodsi 表示,在 R1 发布后一小时内,他就收到了 DataBricks 客户的第一个请求,询问如何使用它。从那时起,需求就愈演愈烈。他表示,具体来说,公司想知道如何在 Databricks 现有的 AI 模型之上添加 DeepSeek 的推理能力——DeepSeek 的努力表明,这是可以以低成本完成的。
Ghodsi 表示:“我们对此的关注速度和兴趣程度都是前所未有的。”
软件公司 OpenReplay 的首席执行官 Mehdi Osman 表示,他的公司传统上使用 OpenAI、Anthropic 和 Mistral 的服务,而 DeepSeek 的推理能力似乎与 OpenAI 不相上下。“如果 OpenAI 不降低价格,我认为未来几个月许多开发人员将转向 DeepSeek,”Osman 说。
OpenAI 拒绝发表评论。DeepSeek 也没有回应置评请求。
谷歌 DeepMind 首席执行官 Demis Hassabis 上周在达沃斯接受彭博新闻社采访时表示:“这有点出乎意料。毫无疑问,这是一个令人印象深刻的系统。”但与业内其他人一样,Hassabis 对 DeepSeek 模型的工作原理表示不确定,包括它在多大程度上依赖其他西方模型。
与此同时,知情人士透露,奥尔特曼告诉 OpenAI 员工,他的初创公司正在试图了解 DeepSeek 的表现是否以及在多大程度上是提炼 OpenAI 模型的结果——即使用该公司人工智能的输出来训练不同的模型以获得类似的能力——或者代表了一项独立的研究突破。
“即使这(提炼 OpenAI 模型)为他们节省了一点时间和金钱(我并不是说他们确实节省了),但这篇论文中显然包含了大量真正的技术工作,人们可以自己查阅并判断,”最近离开 OpenAI 的独立人工智能政策研究员 Miles Brundage 说道。
一些美国科技创始人和风险投资家也对 DeepSeek 技术的实际价格表示怀疑。包括 Brundage 在内的许多人都质疑 DeepSeek 560 万美元的培训预算是否包括了之前研究实验的成本以及投资图形处理单元的固定成本,例如建设数据中心。
梁则表示,成本和融资并不是他的主要担忧。梁在接受中国媒体36氪采访时表示,进一步发展的瓶颈是美国对获取最佳芯片的限制。
“更多的投资并不一定会带来更多的创新,”梁说。“否则,大公司将接管所有创新。”
新的竞争格局
在 DeepSeek 热潮兴起前的几周里,梁所暗示的一些大公司甚至进一步展示了它们的财力。
亚马逊预计 2024 年资本支出约为 750 亿美元,今年的支出将有所增加,主要用于支持人工智能的芯片和数据中心等技术基础设施。Meta 表示,它将在 2025 年向人工智能相关项目投资高达 650 亿美元。微软表示,本财年将在人工智能数据中心上投入 800 亿美元。
大型云计算公司的大部分支出都用于 Nvidia 图形处理单元。法国巴黎银行 Exane 分析师 Stefan Slowinski 在周一的一份研究报告中写道,亚马逊、谷歌和微软也在开发专为人工智能设计的定制芯片,如果开发人员能够在专业性较低的硬件上构建和运行模型,那么从长远来看,这项工作的用处可能会减少。
云计算巨头们已经开始努力应对投资者对其巨额人工智能投资回报的质疑。微软就一直难以将其融入大部分产品线的 Copilot 聊天机器人变现。与此同时,亚马逊在开发自己的大型语言模型方面落后于其主要竞争对手,尽管它已将聊天机器人和其他人工智能工具注入其零售和云计算业务。
不过,这两家公司的巨额投资可能会在未来获得回报。亚马逊认为,随着其他公司在亚马逊网络服务的服务器上训练和运行人工智能程序,其作为最大租用计算能力提供商的地位将帮助其繁荣发展。伯恩斯坦法国兴业银行集团分析师马克·莫德勒表示,微软更专注于建设运行人工智能模型的数据中心,而不是训练它们,他预计微软的支出最早明年就会放缓。“我们认为他们主要在建设推理能力,而不是训练,”他说。“如果这是正确的,我认为 DeepSeek 对微软来说不是问题。”
最大的问题是,美国大型科技公司是否会采用 DeepSeek 的方法。一些人工智能开发人员表示,这家中国新贵公司的成功可能会加速人工智能向更便宜、更有利可图的方向发展——这将开启一种自然进程,这种进程推动了从芯片到智能手机等几乎所有重大技术的发展。
人工智能初创公司 Cohere 的首席执行官艾丹·戈麦斯 (Aidan Gomez) 表示:“法学硕士的未来属于那些专注于更高效技术而不是更多计算的人。我们长期以来一直相信这一点,但它终于在整个行业引起了轰动。”
评论
发表评论