尽管中国购买先进制程的芯片面临种种限制,但开发者们已经找到了变通途径。有迹象表明,中国初创企业追赶美国领先的 AI 模型的速度要比业内许多人预期的更快。
DeepSeek 是一家由中国最成功的对冲基金公司之一投资的初创公司,该公司在 11 月发布了最新大语言模型的预览版。该公司当时表示,该程序的能力优于 OpenAI 的推理模型 “o1”,后者于 9 月以预览版的形式发布。
近几周,其他中国公司也作出了类似的表态。由中国互联网巨头阿里巴巴 (Alibaba) 和腾讯 (Tencent) 支持的初创公司月之暗面 (Moonshot AI) 表示,该公司开发了一种专门研究数学的模型,其能力接近“o1”,与此同时,阿里巴巴表示,自己的一个实验性研究模型在数学方面优于 o1 模型的预览版。
这些公司尚未发表描述其模型的论文,而且由于目前还没有一个公认的 AI 模型能力测试标准,因此很难评估这些说法。尽管如此,一些美国专家表示,他们对此印象深刻。
“中国正在加速追赶,”OpenAI 前研究员、如今的 AI 创业者安德鲁 · 卡尔 (Andrew Carr) 说。他说,试图复制 OpenAI 推理模型的 DeepSeek 研究人员“在几个月内就搞定了,坦率地说,我的许多同事对此感到惊讶”。
其中一项用于比较的测试是美国数学邀请赛 (American Invitational Mathematics Examination, 简称 AIME),该竞赛是为最聪明的高中学生举办的数学挑战赛。
DeepSeek 表示,其模型在 AIME 测试中胜过了 OpenAI 的模型。《华尔街日报》(The Wall Street Journal)利用今年 AIME 的 15 道题进行的一项实验发现,OpenAI 的 “o1” 预览版模型得出答案的速度比 DeepSeek、月之暗面和阿里巴巴的实验模型更快。例如,一个假设的双人博弈问题需要用到策略来解字谜,OpenAI 的程序在 10 秒内给出了答案,而 DeepSeek 花了 2 分多钟。
在第一次尝试时就得到正确答案仍然非常了不起,因为文字题常常难倒 AI 程序。
自 2022 年以来,中国 AI 开发者面临美国对其获得全球最先进制程 AI 芯片的限制,包括来自芯片领导者英伟达 (Nvidia) 的芯片。拜登 (Biden) 政府在 12 月再次收紧了出口管制规定。
但开发者们已经找到了变通途径。
在由阿里巴巴和腾讯支持的初创公司月之暗面,创始人杨植麟曾表示,该公司正专注于强化学习,这种学习方式模仿了人类的试错过程。这种方法在提高性能方面可能对计算能力的要求较低。
自去年年底以来,AI 开发者越来越多地使用一种名为 “专家混合”(mixture of experts, 简称 MoE) 的技术,在这种技术中,一个初始路由机制将问题引导给一个专门的专家模型,就像总厨将一份意大利面订单分配给厨房的意大利厨师一样。这个过程也降低了对算力的要求。
腾讯表示,该公司于 11 月发布的 MoE 模型的性能可与 Facebook 母公司 Meta Platforms 7 月份推出的 Llama 3.1 模型相媲美。查阅过这两家公司发表的论文的研究人员表示,腾讯的模型在训练时使用的计算能力可能是 Meta 的十分之一左右。
DeepSeek 最初是幻方 (High-Flyer) 的 AI 研究部门,幻方是一家管理着 80 亿美元资产的量化对冲基金管理公司,该公司以利用 AI 进行交易而闻名。2021 年,DeepSeek 连接了大约 1 万个英伟达 A100 芯片,形成了一个用于 AI 训练的集群,并将其命名为“萤火二号”(Fire-Flyer 2)。
DeepSeek 在今年 8 月发表的一篇论文中表示,“萤火二号” 的性能接近于包含类似芯片的英伟达系统,但这个中国系统的成本更低,能耗也更低。DeepSeek 在 5 月份发表的关于其 MoE 模型的论文在业内引起了广泛关注,该模型采用了一种更有效的数据处理技术。
“中国绕过出口管制的一种方式将是:利用其能够获得的硬件,构建极其优秀的软件和硬件训练体系,”AI 初创公司 Anthropic 的联合创始人 Jack Clark 在他的博客中写道,他指的是 DeepSeek 的集群。“‘中国制造’将成为 AI 模型领域的一股潮流,就像电动汽车、无人机和其他技术一样,” 他写道。
许多中国 AI 开发者已经找到了途径去获得受限的英伟达芯片,包括通过与中间商交易以及利用海外数据中心。
尽管如此,据中国企业高管称,缺乏尖端芯片对中国初创公司来说是痛苦的,而且这种差距还可能扩大。英伟达的客户正准备大规模部署其最新的 AI 数据中心芯片 Blackwell。
马斯克 (Elon Musk) 的 xAI 已经建立了一个使用 10 万个英伟达芯片的数据中心,并且最近筹集了 50 亿美元用于进一步发展。Amazon Web Services 计划利用数十万个自主研发的芯片,打造一台庞大的 AI 超级计算机。
专注于开源模型的 DeepSeek 强调数学和编码。月之暗面凭借其类似于 ChatGPT 的聊天机器人 Kimi 在中国消费者中获得了人气,该公司以处理长文本的能力而闻名。
中国 AI 初创公司的估值目前仅为 OpenAI 等美国公司的一小部分,因为投资者不确定它们的技术进步能否实现商业化。OpenAI 最近的估值为 1,570 亿美元。激烈的竞争已导致 AI 模型供应商之间爆发价格战。
据知情人士透露,总部位于北京的智谱 (Zhipu AI) 已推迟了最早在 2025 年下半年上市的计划,此前投行人士告诉该公司,不太可能获得其期望的估值。该公司在本月进行的最新一轮融资中估值约为 30 亿美元。智谱在 11 月下旬展示了其 AI 智能体(AI agent),并在 7 月份发布了一个类似于 OpenAI 的 Sora 的视频生成模型。
曾在北京一家 AI 模型公司担任 AI 基础设施高管的 Howard Huang 将中国 AI 行业比作戴着镣铐跳舞的人。他说:“专注于我们一直擅长的事才是生存的唯一机会,而且甚至有可能跑赢。”
评论
发表评论