纽约时报:
DeepSeek 的工程师说,他们的系统只需要约 2000 块美国芯片制造商英伟达生产的专用计算机芯片,而美国大公司的 AI 系统需要多达 1.6 万块芯片。 Marlena Sloss/Bloomberg
圣诞节的第二天,一家名为深度求索 (DeepSeek) 的中国小型初创公司发布了一个新的人工智能系统,其功能可与 OpenAI 和谷歌等公司的尖端聊天机器人相媲美。
能做到这点本已是一个里程碑。但这个名为 DeepSeek-V3 的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的研究论文中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。
这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。
但 DeepSeek 大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。
据美国人工智能公司一直使用的行业基准测试,DeepSeek 聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。
而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约 600 万美元的原始计算能力就训练了新模型,不到科技巨头 Meta 训练其最新人工智能模型所耗资金的十分之一。
“有 600 万美元资金的公司在数量上远远多于有 1 亿美元或 10 亿美元资金的公司,” 风险投资公司 Page One Ventures 的投资人克里斯 · 尼科尔森说道,他主要投资人工智能技术。
自从 OpenAI 2022 年发布了 ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。
世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达 1.6 万个芯片,甚至更多。但 DeepSeek 的工程师却说,他们只用了约 2000 个英伟达生产的专用芯片。
中国进口芯片受到限制,迫使 DeepSeek 工程师 “更有效地训练大模型,以让其仍有竞争力”,乔治华盛顿大学专门研究新兴技术和国际关系的助理教授杰弗里 · 丁(音)说。
本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。
美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。
DeepSeek 由一家名叫幻方的量化股票交易公司运营。到 2001 年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。
曾参与早期 DeepSeek 大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。
DeepSeek 不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。
领先的美国公司继续推动人工智能的发展。去年 12 月,OpenAI 公布了一款性能超过现有技术的名为 o3 的新 “推理” 系统,尽管该系统尚未在该公司以外得到广泛使用。但 DeepSeek 继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。
(《纽约时报》已起诉 OpenAI 及其合作伙伴微软,称其侵犯了与人工智能系统相关新闻内容的版权。OpenAI 和微软否认了这些指控。)
这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek 也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。
虽然中国大型科技企业的员工只与自己的同事合作,但 “如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山 Baseten 的首席软件工程师张一能(音)说,他为开源的 SGLang 项目工作。他还帮助其他人和公司使用 DeepSeek 模型构建产品。
2023 年,Meta 免费分享了一个名为 LLama 的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像 Meta 这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但 DeepSeek 和其他公司已表明,它们也可以拓展开源技术的能力。
许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。
但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。
“开源社区的重心已在向中国转移,” 加州大学伯克利分校计算机科学教授伊恩 · 斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。
就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。
斯托伊卡和他的学生最近构建了一个名为 Sky-T1 的人工智能模型,在某些基准测试中,该模型的性能可与最新的 OpenAI 系统——OpenAI o1 相媲美。他们的模型只需要 450 美元的计算能力。

他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。
他们 450 美元的系统不如 OpenAI 技术或 DeepSeek 新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。
多伦多的技术顾问鲁文 · 科恩从去年 12 月下旬起一直在使用 DeepSeek-V3。他说,该模型与 OpenAI、谷歌,以及旧金山初创公司 Anthropic 的最新系统能力相当,而且使用起来便宜得多。
“DeepSeek 是让我省钱的办法,” 他说。“这是像我这样的人想用的技术。”
评论
发表评论