经济学人:
9月,美国公司 Open AI发布了世界上第一个“推理模型”,这是一种先进的人工智能。该模型名为 o1,它使用“思维链”来解答科学和数学难题,将问题分解为组成步骤,并在后台测试各种方法,然后向用户呈现结论。它的发布引发了一场效仿此方法的竞赛。谷歌于 12 月推出了一种名为“双子闪电思维”的推理模型。几天后, Open AI推出了 o3,这是 o1 的更新版本。
但事实上,拥有众多资源的谷歌并不是第一家模仿 Open AI 的公司。在 o1 推出后不到三个月,中国电子商务巨头阿里巴巴就发布了新版 Qwen 聊天机器人Q w Q,具有相同的“推理”能力。该公司在一篇华丽的博客文章中问道:“思考、质疑和理解意味着什么?”并附上了该模型免费版本的链接。另一家中国公司 DeepSeek 在那之前一周发布了一款名为R 1 的推理模型的“预览版”。尽管美国政府竭力遏制中国人工智能产业的发展,但两家中国公司已在短短几周内将美国同行的技术领先优势缩小到最小。
中国公司不仅在推理模型方面处于领先地位:去年 12 月,DeepSeek 发布了新的大型语言模型 ( LLM ),这是一种分析和生成文本的人工智能。v3 大小接近 700 GB,大到无法在专业硬件上运行,并且有 6850 亿个参数,这些单独的规则组合起来构成了模型的神经网络。这使得它比以前免费下载的任何模型都要大。Facebook 母公司 Meta 的旗舰 LLM Llama 3.1于7 月发布,只有 4050 亿个参数。
DeepSeek 的LLM不仅比许多西方同行规模更大,而且更优秀,只有谷歌和 Open AI 的专有模型可以与之匹敌。人工智能编码平台Aider 的创始人 Paul Gauthier在他的编码基准测试中运行了新的 DeepSeek 模型,发现除了 o1 本身之外,它胜过所有竞争对手。众包聊天机器人排名L msys 将其排在第七位,高于任何其他开源模型,也是除谷歌或 Open AI以外的公司制作的最高排名(见图表)。
龙之崛起
如今,中国人工智能的质量已与美国竞争对手非常接近,Open AI的老板山姆·奥特曼 (Sam Altman) 不得不解释差距之小。DeepSeek 发布 v3 后不久,他不耐烦地发推文说:“复制你知道行得通的东西(相对)容易。当你不知道它是否会行得通时,去做一些新奇、冒险且困难的事情就极其困难了。”
中国的人工智能行业最初看起来是二流的。这可能部分是因为它不得不应对美国的制裁。2022 年,美国禁止向中国出口先进芯片。领先的芯片制造商英伟达不得不为中国市场设计特别降级的产品。美国还试图阻止中国发展在国内生产顶级芯片的能力,禁止出口必要的设备,并威胁对可能有帮助的非美国公司进行处罚。
另一个障碍是本土的。中国公司迟迟没有开始LLM课程,部分原因是出于监管方面的担忧。他们担心审查者会对可能“产生幻觉”并提供不正确信息或更糟的是发表政治危险言论的模型做出反应。搜索巨头百度多年来一直在内部试验LLM课程,并创建了一个名为“ ERNIE ”的课程,但一直犹豫是否要向公众发布。即使 Chat GPT的成功促使它重新考虑,它最初也只允许通过邀请访问ERNIE机器人。
最终,中国当局出台了促进人工智能产业发展的法规。尽管他们呼吁模型制作者强调内容合理,并坚持“社会主义价值观”,但他们也承诺“鼓励生成式人工智能的创新发展”。新闻网站 TechTechChina 的编辑 Vivian Toh 表示,中国寻求全球竞争。阿里巴巴是首批适应新的宽松环境的公司之一,推出了自己的法学硕士学位,最初名为“统一钱文”,后来简称为“Qwen”。
在一年左右的时间里,阿里巴巴推出的产品并没有什么让人兴奋的地方:一个基于 Meta 开源 Llama LLM的相当平淡无奇的“分支”。但在 2024 年,随着阿里巴巴连续发布 Qwen 的迭代,质量开始提高。一年前,当阿里巴巴发布了一个能够分析图像和文本的 Qwen 版本时,西方人工智能实验室 Anthropic 的杰克·克拉克 (Jack Clark) 说:“这些模型似乎可以与西方领先实验室开发的非常强大的模型相媲美。”
包括腾讯和华为在内的中国其他互联网巨头也在构建自己的模型。但 DeepSeek 的起源不同。阿里巴巴发布第一个 Qwen 模型时,它甚至还不存在。它源自 High-Flyer,这是一家 2015 年成立的对冲基金,旨在利用人工智能在股票交易中获得优势。进行基础研究帮助 High-Flyer 成为该国最大的量化基金之一。
但 High-Flyer 创始人梁文锋表示,其动机并非纯粹出于商业目的。他观察到,Open AI的首批支持者并不寻求回报;他们的动机是“追求使命”。2023 年 Qwen 推出的同一个月,High-Flyer 宣布也将加入创造人类级人工智能的竞赛,并将其人工智能研究部门拆分为 DeepSeek。
和 Open AI之前一样,DeepSeek 承诺开发人工智能是为了公众利益。梁先生表示,该公司将公开其大部分训练结果,以防止该技术被少数个人或公司“垄断”。与被迫寻求私人资金来支付不断膨胀的训练成本的 Open AI不同,DeepSeek 一直可以使用 High-Flyer 庞大的计算能力储备。
DeepSeek 庞大的llm不仅因为规模而引人注目,还因为其训练效率而引人注目,即模型从数据中推断出其参数。剑桥大学的 Nic Lane 表示,这一成功并非源于单一的重大创新,而是一系列微小的改进。例如,训练过程通常使用四舍五入来简化计算,但在必要时保持数字精确。服务器群经过重新配置,使各个芯片能够更有效地相互通信。在模型训练完成后,它会根据推理系统 DeepSeek R 1 的输出进行微调,学习如何以更低的成本模仿其质量。
得益于这些创新和其他创新,计算出 v3 的数十亿个参数仅花费了不到 300 万个芯片小时,估计成本不到 600 万美元——约为 Llama 3.1 所需计算能力和费用的十分之一。v3 的训练只需要 2,000 个芯片,而 Llama 3.1 使用了 16,000 个芯片。而且由于美国的制裁,v3 使用的芯片甚至不是最强大的。西方公司似乎在芯片方面越来越挥霍:Meta 计划使用 350,000 个芯片建立一个服务器场。特斯拉前人工智能主管 Andrej Karpathy 说,就像 Ginger Rogers 穿着高跟鞋倒着跳舞一样,DeepSeek让“以极低的预算”训练前沿模型“看起来很容易”。
该模型不仅训练成本低廉,运行成本也更低。DeepSeek 比同行更有效地将任务拆分到多个芯片上,并在前一个步骤完成之前开始下一步。这使得它能够让芯片以满负荷工作,几乎没有冗余。因此,今年 2 月,当 DeepSeek 开始让其他公司创建使用 v3 的服务时,其收费将不到 Anthropic 使用其法学硕士Claude 收费的十分之一。“如果这些模型确实具有同等质量,那么这将是正在进行的法学硕士价格战中一个戏剧性的转折,”人工智能专家 Simon Willison 说。
DeepSeek 对效率的追求并未止步于此。本周,在发布完整版R 1 的同时,该公司还发布了一系列更小、更便宜、更快的“精简版”变体,这些变体几乎与大型版本一样强大。这模仿了阿里巴巴和 Meta 的类似版本,再次证明了它可以与业内巨头相媲美。
龙之道
阿里巴巴和 DeepSeek 还以另一种方式挑战最先进的西方实验室。与 Open AI和谷歌不同,中国实验室跟随 Meta 的脚步,在开源许可下提供他们的系统。如果你想下载 Qwen AI并在其基础上构建自己的程序,你可以——不需要特定的许可。这种宽容与非凡的开放性相匹配:这两家公司每当发布新模型时都会发表论文,详细介绍用于提高其性能的技术。
当阿里巴巴发布Q w Q(代表“Questions with Qwen”)时,它成为世界上第一家在开放许可下发布此类模型的公司,任何人都可以下载完整的 20 GB 文件并在自己的系统上运行它,或者将其拆开以查看其工作原理。这是一种与 Open AI截然不同的方法,后者隐藏了 o1 的内部工作原理。
概括而言,这两种模型都采用了所谓的“测试时计算”:它们不是在模型训练期间集中使用计算能力,而是在回答查询时消耗比前几代LLM更多的资源。这是心理学家丹尼尔·卡尼曼 (Daniel Kahneman) 所说的“第二类”思维的数字版本:比快速而本能的“第一类”思维更慢、更慎重、更具分析性。它在数学和编程等领域取得了令人鼓舞的成果。
如果有人问你一个简单的事实问题——比如说,法国首都在哪里——你可能会用脑子里想到的第一个词来回答,而且很可能是正确的。典型的聊天机器人的工作方式大致相同:如果它的语言统计表示给出了压倒性受欢迎的答案,它就会相应地完成句子。
但如果你被问到更复杂的问题,你往往会以更结构化的方式思考。当被问到法国人口第五多的城市时,你可能会先列出一长串法国大城市名单;然后尝试按人口对它们进行排序,最后才给出答案。
o1 及其模仿者的诀窍是引导法学硕士 (LLM)进行相同形式的结构化思考:系统不会脱口而出脑海中最合理的答案,而是将问题分解并逐步找到答案。
但 o1 会将自己的想法保留给自己,只向用户透露其流程摘要和最终结论。Open AI为这一选择提供了一些理由。例如,有时模型会考虑是否使用攻击性词语或透露危险信息,但最终决定不这样做。如果其全部推理被公开,那么敏感材料也会被公开。但模型的谨慎也使其推理的精确机制对潜在的模仿者隐藏起来。
阿里巴巴没有这样的顾虑。如果让Q w Q解决一道棘手的数学题,它会愉快地详细描述它的每一步,有时会在尝试各种方法解决这项任务时自言自语数千字。“所以我需要找到 2019 8 + 1 的最小奇数素因数。嗯,这似乎很大,但我想我可以一步一步地分解它,”模型开始说道,生成了 2,000 字的分析,然后正确地得出结论,答案是 97。
阿里巴巴的开放并非巧合,Poolside 联合创始人 Eiso Kant 表示,Poolside 是一家总部位于葡萄牙的公司,为程序员开发AI工具。他指出,中国实验室正在与其他行业争夺人才。“如果你是一名考虑出国的研究人员,西方实验室有什么不能给你的?我们再也不能公开我们的东西了。由于竞争的性质,我们将一切都锁起来。”Kant 先生说,即使中国公司的工程师不是第一个发现某项技术的人,但他们往往是第一个发表该技术的人。“如果你想看到任何秘密技术的出现,请关注中国开源研究人员。他们发表了所有内容,并且做得非常出色。”Lane 先生指出,v3 发布时发表的论文列出了 139 位作者的名字。这样的赞誉可能比在美国实验室默默无闻地工作更有吸引力。
美国政府决心阻止先进技术流入中国,这也让在美中国研究人员的日子不好过。问题不仅在于旨在保密最新创新成果的新法律带来的行政负担。而且,人们常常弥漫着一种模糊的怀疑气氛。甚至在社交场合,间谍指控也层出不穷。
大佬
在中国工作也有缺点。例如,向 DeepSeek v3 询问台湾的问题时,模型会愉快地开始解释台湾是东亚的一个岛屿,“正式名称为中华民国”。但在它写了几句类似的话后,它就停下来,删除了最初的答案,而是简短地建议说:“我们聊点别的吧。”
中国实验室比政府更透明,部分原因是他们希望创建一个以人工智能为中心的企业生态系统。这具有一定的商业价值,因为基于开源模型构建的公司最终可能会被说服从其创造者那里购买产品或服务。这也给中国带来了战略利益,因为它在与美国的人工智能冲突中创造了盟友。
中国公司自然更愿意以中国模型为基础,因为这样他们就不必担心新的禁令或限制会切断他们与底层平台的联系。他们还知道,他们不太可能违反西方模型不会考虑的中国审查要求。上海的科技投资者 Francis Young 指出,对于像苹果和三星这样渴望将人工智能工具融入其在中国销售的设备中的公司来说,本地合作伙伴是必不可少的。甚至一些海外公司也有使用中国模型的具体原因:Qwen 刻意融入了乌尔都语和孟加拉语等“资源匮乏”语言的流利性,而美国模型则主要使用英语数据进行训练。此外,中国模型的较低运行成本也具有巨大的吸引力。
这并不一定意味着中国模式将席卷全球。美国人工智能仍然具有中国竞争对手无法比拟的能力。谷歌的一项研究计划将用户的网络浏览器交给其 Gemini 聊天机器人,提高了人工智能“代理”与网络交互的前景。Anthropic 和 Open AI的聊天机器人不仅会帮助您编写代码,还会为您运行代码。Claude 将构建和托管整个应用程序。逐步推理并不是解决复杂问题的唯一方法。向传统版本的 Chat GPT询问上述数学问题,它会编写一个简单的程序来找到答案。
奥尔特曼表示,还有更多创新正在酝酿中,他预计很快将宣布,Open AI已经打造出“博士级超级智能体”,它们在一系列智力任务上的能力堪比人类专家。紧随美国人工智能之后的竞争可能会促使它取得更大的成就。
评论
发表评论