跳至主要内容

deepseek:中国的人工智能产业几乎赶上了美国

经济学人:

9月,美国公司 Open AI发布了世界上第一个“推理模型”,这是一种先进的人工智能。该模型名为 o1,它使用“思维链”来解答科学和数学难题,将问题分解为组成步骤,并在后台测试各种方法,然后向用户呈现结论。它的发布引发了一场效仿此方法的竞赛。谷歌于 12 月推出了一种名为“双子闪电思维”的推理模型。几天后, Open AI推出了 o3,这是 o1 的更新版本。

图表:经济学人

但事实上,拥有众多资源的谷歌并不是第一家模仿 Open AI 的公司。在 o1 推出后不到三个月,中国电子商务巨头阿里巴巴就发布了新版 Qwen 聊天机器人Q w Q,具有相同的“推理”能力。该公司在一篇华丽的博客文章中问道:“思考、质疑和理解意味着什么?”并附上了该模型免费版本的链接。另一家中国公司 DeepSeek 在那之前一周发布了一款名为R 1 的推理模型的“预览版”。尽管美国政府竭力遏制中国人工智能产业的发展,但两家中国公司已在短短几周内将美国同行的技术领先优势缩小到最小。

中国公司不仅在推理模型方面处于领先地位:去年 12 月,DeepSeek 发布了新的大型语言模型 ( LLM ),这是一种分析和生成文本的人工智能。v3 大小接近 700 GB,大到无法在专业硬件上运行,并且有 6850 亿个参数,这些单独的规则组合起来构成了模型的神经网络。这使得它比以前免费下载的任何模型都要大。Facebook 母公司 Meta 的旗舰 LLM Llama 3.17 月发布,只有 4050 亿个参数。

DeepSeek 的LLM不仅比许多西方同行规模更大,而且更优秀,只有谷歌和 Open AI 的专有模型可以与之匹敌。人工智能编码平台Aider 的创始人 Paul Gauthier在他的编码基准测试中运行了新的 DeepSeek 模型,发现除了 o1 本身之外,它胜过所有竞争对手。众包聊天机器人排名L msys 将其排在第七位,高于任何其他开源模型,也是除谷歌或 Open AI以外的公司制作的最高排名(见图表)。

龙之崛起

如今,中国人工智能的质量已与美国竞争对手非常接近,Open AI的老板山姆·奥特曼 (Sam Altman) 不得不解释差距之小。DeepSeek 发布 v3 后不久,他不耐烦地发推文说:“复制你知道行得通的东西(相对)容易。当你不知道它是否会行得通时,去做一些新奇、冒险且困难的事情就极其困难了。”

中国的人工智能行业最初看起来是二流的。这可能部分是因为它不得不应对美国的制裁。2022 年,美国禁止向中国出口先进芯片。领先的芯片制造商英伟达不得不为中国市场设计特别降级的产品。美国还试图阻止中国发展在国内生产顶级芯片的能力,禁止出口必要的设备,并威胁对可能有帮助的非美国公司进行处罚。

另一个障碍是本土的。中国公司迟迟没有开始LLM课程,部分原因是出于监管方面的担忧。他们担心审查者会对可能“产生幻觉”并提供不正确信息或更糟的是发表政治危险言论的模型做出反应。搜索巨头百度多年来一直在内部试验LLM课程,并创建了一个名为“ ERNIE ”的课程,但一直犹豫是否要向公众发布。即使 Chat GPT的成功促使它重新考虑,它最初也只允许通过邀请访问ERNIE机器人。

最终,中国当局出台了促进人工智能产业发展的法规。尽管他们呼吁模型制作者强调内容合理,并坚持“社会主义价值观”,但他们也承诺“鼓励生成式人工智能的创新发展”。新闻网站 TechTechChina 的编辑 Vivian Toh 表示,中国寻求全球竞争。阿里巴巴是首批适应新的宽松环境的公司之一,推出了自己的法学硕士学位,最初名为“统一钱文”,后来简称为“Qwen”。

在一年左右的时间里,阿里巴巴推出的产品并没有什么让人兴奋的地方:一个基于 Meta 开源 Llama LLM的相当平淡无奇的“分支”。但在 2024 年,随着阿里巴巴连续发布 Qwen 的迭代,质量开始提高。一年前,当阿里巴巴发布了一个能够分析图像和文本的 Qwen 版本时,西方人工智能实验室 Anthropic 的杰克·克拉克 (Jack Clark) 说:“这些模型似乎可以与西方领先实验室开发的非常强大的模型相媲美。”

包括腾讯和华为在内的中国其他互联网巨头也在构建自己的模型。但 DeepSeek 的起源不同。阿里巴巴发布第一个 Qwen 模型时,它甚至还不存在。它源自 High-Flyer,这是一家 2015 年成立的对冲基金,旨在利用人工智能在股票交易中获得优势。进行基础研究帮助 High-Flyer 成为该国最大的量化基金之一。

但 High-Flyer 创始人梁文锋表示,其动机并非纯粹出于商业目的。他观察到,Open AI的首批支持者并不寻求回报;他们的动机是“追求使命”。2023 年 Qwen 推出的同一个月,High-Flyer 宣布也将加入创造人类级人工智能的竞赛,并将其人工智能研究部门拆分为 DeepSeek。

和 Open AI之前一样,DeepSeek 承诺开发人工智能是为了公众利益。梁先生表示,该公司将公开其大部分训练结果,以防止该技术被少数个人或公司“垄断”。与被迫寻求私人资金来支付不断膨胀的训练成本的 Open AI不同,DeepSeek 一直可以使用 High-Flyer 庞大的计算能力储备。

DeepSeek 庞大的llm不仅因为规模而引人注目,还因为其训练效率而引人注目,即模型从数据中推断出其参数。剑桥大学的 Nic Lane 表示,这一成功并非源于单一的重大创新,而是一系列微小的改进。例如,训练过程通常使用四舍五入来简化计算,但在必要时保持数字精确。服务器群经过重新配置,使各个芯片能够更有效地相互通信。在模型训练完成后,它会根据推理系统 DeepSeek R 1 的输出进行微调,学习如何以更低的成本模仿其质量。

得益于这些创新和其他创新,计算出 v3 的数十亿个参数仅花费了不到 300 万个芯片小时,估计成本不到 600 万美元——约为 Llama 3.1 所需计算能力和费用的十分之一。v3 的训练只需要 2,000 个芯片,而 Llama 3.1 使用了 16,000 个芯片。而且由于美国的制裁,v3 使用的芯片甚至不是最强大的。西方公司似乎在芯片方面越来越挥霍:Meta 计划使用 350,000 个芯片建立一个服务器场。特斯拉前人工智能主管 Andrej Karpathy 说,就像 Ginger Rogers 穿着高跟鞋倒着跳舞一样,DeepSeek让“以极低的预算”训练前沿模型“看起来很容易”。

该模型不仅训练成本低廉,运行成本也更低。DeepSeek 比同行更有效地将任务拆分到多个芯片上,并在前一个步骤完成之前开始下一步。这使得它能够让芯片以满负荷工作,几乎没有冗余。因此,今年 2 月,当 DeepSeek 开始让其他公司创建使用 v3 的服务时,其收费将不到 Anthropic 使用其法学硕士Claude 收费的十分之一。“如果这些模型确实具有同等质量,那么这将是正在进行的法学硕士价格战中一个戏剧性的转折,”人工智能专家 Simon Willison 说。

DeepSeek 对效率的追求并未止步于此。本周,在发布完整版R 1 的同时,该公司还发布了一系列更小、更便宜、更快的“精简版”变体,这些变体几乎与大型版本一样强大。这模仿了阿里巴巴和 Meta 的类似版本,再次证明了它可以与业内巨头相媲美。

龙之道

阿里巴巴和 DeepSeek 还以另一种方式挑战最先进的西方实验室。与 Open AI和谷歌不同,中国实验室跟随 Meta 的脚步,在开源许可下提供他们的系统。如果你想下载 Qwen AI并在其基础上构建自己的程序,你可以——不需要特定的许可。这种宽容与非凡的开放性相匹配:这两家公司每当发布新模型时都会发表论文,详细介绍用于提高其性能的技术。

当阿里巴巴发布Q w Q(代表“Questions with Qwen”)时,它成为世界上第一家在开放许可下发布此类模型的公司,任何人都可以下载完整的 20 GB 文件并在自己的系统上运行它,或者将其拆开以查看其工作原理。这是一种与 Open AI截然不同的方法,后者隐藏了 o1 的内部工作原理。

概括而言,这两种模型都采用了所谓的“测试时计算”:它们不是在模型训练期间集中使用计算能力,而是在回答查询时消耗比前几代LLM更多的资源。这是心理学家丹尼尔·卡尼曼 (Daniel Kahneman) 所说的“第二类”思维的数字版本:比快速而本能的“第一类”思维更慢、更慎重、更具分析性。它在数学和编程等领域取得了令人鼓舞的成果。

如果有人问你一个简单的事实问题——比如说,法国首都在哪里——你可能会用脑子里想到的第一个词来回答,而且很可能是正确的。典型的聊天机器人的工作方式大致相同:如果它的语言统计表示给出了压倒性受欢迎的答案,它就会相应地完成句子。

但如果你被问到更复杂的问题,你往往会以更结构化的方式思考。当被问到法国人口第五多的城市时,你可能会先列出一长串法国大城市名单;然后尝试按人口对它们进行排序,最后才给出答案。

o1 及其模仿者的诀窍是引导法学硕士 (LLM)进行相同形式的结构化思考:系统不会脱口而出脑海中最合理的答案,而是将问题分解并逐步找到答案。

但 o1 会将自己的想法保留给自己,只向用户透露其流程摘要和最终结论。Open AI为这一选择提供了一些理由。例如,有时模型会考虑是否使用攻击性词语或透露危险信息,但最终决定不这样做。如果其全部推理被公开,那么敏感材料也会被公开。但模型的谨慎也使其推理的精确机制对潜在的模仿者隐藏起来。

阿里巴巴没有这样的顾虑。如果让Q w Q解决一道棘手的数学题,它会愉快地详细描述它的每一步,有时会在尝试各种方法解决这项任务时自言自语数千字。“所以我需要找到 2019 8 + 1 的最小奇数素因数。嗯,这似乎很大,但我想我可以一步一步地分解它,”模型开始说道,生成了 2,000 字的分析,然后正确地得出结论,答案是 97。

阿里巴巴的开放并非巧合,Poolside 联合创始人 Eiso Kant 表示,Poolside 是一家总部位于葡萄牙的公司,为程序员开发AI工具。他指出,中国实验室正在与其他行业争夺人才。“如果你是一名考虑出国的研究人员,西方实验室有什么不能给你的?我们再也不能公开我们的东西了。由于竞争的性质,我们将一切都锁起来。”Kant 先生说,即使中国公司的工程师不是第一个发现某项技术的人,但他们往往是第一个发表该技术的人。“如果你想看到任何秘密技术的出现,请关注中国开源研究人员。他们发表了所有内容,并且做得非常出色。”Lane 先生指出,v3 发布时发表的论文列出了 139 位作者的名字。这样的赞誉可能比在美国实验室默默无闻地工作更有吸引力。

美国政府决心阻止先进技术流入中国,这也让在美中国研究人员的日子不好过。问题不仅在于旨在保密最新创新成果的新法律带来的行政负担。而且,人们常常弥漫着一种模糊的怀疑气氛。甚至在社交场合,间谍指控也层出不穷。

大佬

在中国工作也有缺点。例如,向 DeepSeek v3 询问台湾的问题时,模型会愉快地开始解释台湾是东亚的一个岛屿,“正式名称为中华民国”。但在它写了几句类似的话后,它就停下来,删除了最初的答案,而是简短地建议说:“我们聊点别的吧。”

中国实验室比政府更透明,部分原因是他们希望创建一个以人工智能为中心的企业生态系统。这具有一定的商业价值,因为基于开源模型构建的公司最终可能会被说服从其创造者那里购买产品或服务。这也给中国带来了战略利益,因为它在与美国的人工智能冲突中创造了盟友。

中国公司自然更愿意以中国模型为基础,因为这样他们就不必担心新的禁令或限制会切断他们与底层平台的联系。他们还知道,他们不太可能违反西方模型不会考虑的中国审查要求。上海的科技投资者 Francis Young 指出,对于像苹果和三星这样渴望将人工智能工具融入其在中国销售的设备中的公司来说,本地合作伙伴是必不可少的。甚至一些海外公司也有使用中国模型的具体原因:Qwen 刻意融入了乌尔都语和孟加拉语等“资源匮乏”语言的流利性,而美国模型则主要使用英语数据进行训练。此外,中国模型的较低运行成本也具有巨大的吸引力。

这并不一定意味着中国模式将席卷全球。美国人工智能仍然具有中国竞争对手无法比拟的能力。谷歌的一项研究计划将用户的网络浏览器交给其 Gemini 聊天机器人,提高了人工智能“代理”与网络交互的前景。Anthropic 和 Open AI的聊天机器人不仅会帮助您编写代码,还会为您运行代码。Claude 将构建和托管整个应用程序。逐步推理并不是解决复杂问题的唯一方法。向传统版本的 Chat GPT询问上述数学问题,它会编写一个简单的程序来找到答案。

奥尔特曼表示,还有更多创新正在酝酿中,他预计很快将宣布,Open AI已经打造出“博士超级智能体”,它们在一系列智力任务上的能力堪比人类专家。紧随美国人工智能之后的竞争可能会促使它取得更大的成就。

评论

此博客中的热门博文

付鹏11月24日在HSBC内部演讲速记

《2024年年终回顾和2025年展望——对冲风险VS软着陆》   上篇 正值年底,虽然刚才汇丰一直强调大家不录音不录像,但大概率你挡不住。我在这儿讲话会谨慎一些,非常小心谨慎,大概率会有人透露出去,放到YouTube上,基本上所有见我都说付总我在YouTube上看过你的视频,我说那都是盗版的,靠盗版发财的也不少。 今天和大家分享的内容基本上都是官方的,回顾会多一点,展望不多,因为这个月展望完了之后下个月怎么办?有些话对我来讲我倒觉得很简单,本质上原来我们是做Hedge Fund出身,所以我们的逻辑框架整体具有极强的延续性,不是说今年去讨论,或者说明年去讨论。 惯性思维从2016年开始,我一直在跟大家强调这个世界已经完全不一样了。当然经历过过去的几年时间,我相信在座各位应该对这番话的理解变得越发深刻。 2016年实际上是美国特朗普的第一次大选,我有一个特点,我的特征是如果我觉得什么地方有投资机会,我可能第一时间去一线调研,我不喜欢看YouTube,我也不喜欢在网上扒。当然你会说,现在ChatGPT很强大了,人工智能好像能帮你解决很多问题,但你们有没有想过,可能广泛流传或者广泛传播的很多信息是错的。这一点在2012年当时我从日本做完调研回来之后,我的感悟是最深的。 当然去日本有一个重要的人物,名字叫本森特,很快大家就会非常熟悉他的,目前来讲应该是特朗普政府提名的美国财长。本森特原来是索罗斯基金实际掌控人,因为索大爷已经年龄很大了,去年的时候才刚刚把基金的业务交给他儿子亚历山大,但在这之前,最主要的几场战役本质上来讲都是本森特在主导。 2012年当时我从北京去香港约朋友们吃饭的饭局上,当时斯索罗斯基金在香港办公室跟我说,本森特从这儿去了日本。我说OK。我经常说一句话“站在巨人的肩膀上看问题。” 当然你知道,网民们最可怕的地方是巴菲特“SB”、索罗斯“SB”,我最“牛逼”。你要记住,他们的所有行为一定有很大的变化,很多人可能都不知道,巴菲特第一次去是2011年,我们正在讲福岛核电站泄漏,核废水污染以后海鲜不能吃的时候,一个80多岁的老头顶着核辐射泄漏去日本吃海鲜了,当然他去日本干吗,这其实很关键。 之后我们跑到日本做完调研回来之后那几年,我陆陆续续跟很多人讲,日本正在发生变化,日本的利率结构都会随之变化的,当然包括日本的证券市场。今年日本股市终于走出这35年了,创下...

中国 AI 初创公司 DeepSeek 是如何与硅谷巨头竞争的

纽约时报: DeepSeek 的工程师说,他们的系统只需要约 2000 块美国芯片制造商英伟达生产的专用计算机芯片,而美国大公司的 AI 系统需要多达 1.6 万块芯片。 Marlena Sloss/Bloomberg 圣诞节的第二天,一家名为深度求索 (DeepSeek) 的中国小型初创公司发布了一个新的人工智能系统,其功能可与 OpenAI 和谷歌等公司的尖端聊天机器人相媲美。 能做到这点本已是一个里程碑。但这个名为 DeepSeek-V3 的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的 研究论文 中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。 这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。 但 DeepSeek 大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。 据美国人工智能公司一直使用的行业基准测试,DeepSeek 聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。 而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约 600 万美元的原始计算能力就训练了新模型,不到科技巨头 Meta 训练其最新人工智能模型所耗资金的十分之一。 “有 600 万美元资金的公司在数量上远远多于有 1 亿美元或 10 亿美元资金的公司,” 风险投资公司 Page One Ventures 的投资人克里斯 · 尼科尔森说道,他主要投资人工智能技术。 自从 OpenAI 2022 年发布了 ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。 世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达 1.6 万个芯片,甚至更多。但 DeepSeek 的工程师却说,他们只用了约 2000 个英伟达生产的专用芯片。 中国进口芯片受到限制,迫使 DeepSe...

关于完善药品价格形成机制的意见

 关于完善药品价格形成机制的意见 (征求意见稿) 党的十八大以来,以市场为主导的药品价格机制改革持续深化,以药品集中带量采购、医保目录谈判为切入口的医保基金战略性购买持续发力,增进市场公平竞争,有力引导药品价格趋于合理,有效推动医药领域发展活力进发,有序促进医药行业发展方式转变。为更好发挥市场机制作用,支持医药高质量创新发展,规范药品价格秩序,现就完善药品价格形成机制提出如下意见。 一、总体要求 以习近平新时代中国特色社会主义思想为指导,着力构建药品领域全国统一大市场,创造更加公平、更有活力的市场环境,健全完善以市场为主导、以临床价值为导向、以有效竞争为基础的药品价格形成机制,引导医保药品价格运行在合理区间,规范非医保药品自主定价,大力支持高质量创新药发展,充分发挥医保基金战略性购买作用,更好发挥商业健康保险多元支付功能,推进药品价格秩序治理,实现有效市场和有为政府更好结合,保障人民群众获得质优价宜药品。到2027年、药品价格形成机制成熟定型,推动医药行业高质量发展取得新成效。 二、发挥市场决定性作用,支持创新药高质量发展 (-)设立创新药产业招资基金。鼓励商业保险公司设立创新药产业投资基金,或明确现有投资基金对创新药产业进行重点投资,发挥保险资金期限长、稳定性优势,减低创新药产业融资成本,支持医药创新发展。涉创新药权益类投资规模达到上季度末总资产5%的,视为创新支持型商业保险公司,可获得税收政策优惠、大病保险承办、城市定制型商业健康保险合作、探索允许职工医保个人账户购买其覆盖高水平创新药的保险产品等支持政策,并在有关商保产品结算支付一站式清分、医保商保同步结算、医保商保数据共享等方面给子支持。完善商业保险权益投资监管制度,督促指 导商业保险公司优化长周期考核评估机制,为创新药高质量发展提供稳定的长期投资。 (二)优化新上市药品首发挂网服务和价格机制。试行以药学和临床价值为基础的新上市药品自评制度,医药企业实事求是做好自评和自主定价,公开接受社会监督和同行评议。做好首发挂网服务,支持创新药加快进入临床。综合自评结果和临床获益因素,分层次落实价格政策,积极支持满足临床急需的高水平创新药在上市初期获得与高投入、高风险相符的收益回报,在一定期限内保持价格相对稳定;鼓励引导改良进步药品价格体现与临床获益相称的价值;规范引导其他新上市药品和仿制药参考同通用名药品、同作...

图解美国对华及对全球其他国家关税政策影响-wsj

候任总统特朗普 (Donald Trump) 在他的第一个任期内把对华加征关税搞成了他的标志性政策。之后上台的总统拜登 (Joe Biden) 基本上保留了这些关税,并指示提高对半导体和电动汽车等产品的关税。 根据 Trade Partnership Worldwide 对截至 9 月份的美国人口普查局 (U.S. Census Bureau) 数据的分析,自特朗普在 2018 年开始对中国上调关税以来,从中国进口的商品的平均实际关税税率已从约 3% 跃升至约 11%。为商业团体提供数据和研究的 TPW 表示,美国从所有国家进口商品的平均实际关税税率已从逾 1% 升至逾 2%。 现在,特朗普准备再次加大对中国和其他贸易伙伴的压力,他最近提议对所有来自中国的产品加征 10% 的关税,对来自墨西哥和加拿大的进口商品加征 25% 的关税。这可能会颠覆他在 2020 年签署的《美墨加协定》(USMCA),该协定在很大程度上维持了这三个北美国家之间的免税贸易。 在关税提高的情况下,中国商品在美国进口中所占份额已经下降,而全球其他国家在美国进口中所占份额有所上升。尽管如此,中国仍是美国的第二大商品供应国。 关税是对跨境商品征收的税。在适用关税的时候,美国进口商通常在外国商品抵达入境口岸时缴纳关税,这一过程由美国海关边境保护局 (U.S. Customs and Border Protection) 负责。美国主要将关税作为保护某些行业的工具,以及对其他国家贸易壁垒的回应手段。关税也是美国政府的一个收入来源。 特朗普过渡团队发言人 Brian Hughes 表示:“特朗普总统已承诺实施关税政策,保护美国制造商和劳动者免受外国公司和外国市场不公平做法的伤害。” 拜登在上周敦促特朗普重新考虑对墨西哥和加拿大征收关税的威胁,警告称这可能会损害美国与这两个最亲密盟友的关系。白宫没有回应置评请求。 平均实际关税税率的计算方法是用关税收入占进口商品价值的百分比来衡量。例如,2023 年美国从印度购买了价值约 840 亿美元的商品,进口商为这些商品支付了约 20 亿美元的关税,鉴于此,来自印度的进口商品的平均实际关税税率约为 2.4%。 经济学家使用这一指标来衡量关税如何应用于大类商品或原产国,并根据进口价值和关税税率的构成进行加权。 即使关税政策没有改变,随着进口商品结构的变化,这一税率也会...

揭秘DeepSeek:一个更极致的中国技术理想主义故事

  做贡献者,而非搭便车者。 文 | 于丽丽 编辑 | 刘旌 中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。 一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。 在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。 弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。 这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA( 一种新的多头潜在注意力机制 )架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。 在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。” 在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。 多位行业人士告诉我们, 这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。” 而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见: 美国更擅长从0-1的技...

如何从中国走线(润到)美国

经济学人: 他们来美国的原因各不相同。有些人寻求经济机会。其他人则对统治感到失望。许多人在网上看到其他中国移民穿越哥伦比亚和巴拿马之间无法无天的丛林地带,寻求更好的生活。数以万计的中国公民前往南美,这是前往美国的危险旅程的第一步。这条路线非常受欢迎,以至于它获得了一个中文昵称:走线,即走线。 过去两年,中国移民一直是穿越美国南部边境增长最快的群体。2023 年,美国边境巡逻队遇到了 3.7 万多名中国移民,高于 2022 年的 3,813 人和 2021 年的 689 人。今年前八个月又有 2.1 万人入境。他们仍然只是 2023 年试图越境的 200 万移民中的一小部分。但由于美国和中国陷入了经济、意识形态和地缘战略竞争,中国移民已成为政治焦点。 唐纳德·特朗普说,来自中国的新移民大多是适龄参军的男性。“他们是想在我们国家组建一支小军队吗?”他问道。其他共和党政客称中国移民是潜在的间谍。卡马拉·哈里斯和民主党人没有那么危言耸听,但他们也担心边境问题。在总统竞选中,移民是首要关注的问题,而中国是一个方便的反面人物,因此几乎没有人努力去了解是什么推动了这种人口流动,以及这对每个国家意味着什么。 《经济学人》花了三个月时间在哥伦比亚、墨西哥和美国进行报道。我们采访了数十名移民,以及走私者、边防警卫和专家。一些人允许我们追踪他们的移民旅程。一些人经过数周的乘船、乘公共汽车、步行和乘飞机的旅行才抵达美国。其他人则在途中失去了一切。大多数人被更美好未来的承诺所吸引,并遵循了试图利用美国不完善的移民制度的策略。但他们的旅程也揭示了中国的情况,压制性统治和日益恶化的经济萎靡不振正在将人们推向远离中国的道路。 第一部分 内科克利 对于许多中国移民来说,美洲的第一站是厄瓜多尔,直到最近,厄瓜多尔才向他们提供免签证入境。但他们很快就搬到了哥伦比亚。在那里,我们遇到了黄女士,一位 40 多岁、身穿亮粉色连衣裙的女性。她已经打破了出生地——中国西南部贵州省的一个贫穷村庄——的保守规范。村里大多数妇女终生务农和养育孩子。然而,黄女士离开家乡去了大城市,养育了两个孩子,并与嗜赌成性的丈夫离婚。她来到了加勒比海边缘的海滨小镇内科克利,即将进入哥伦比亚和巴拿马之间危险的达连峡丛林。 她两个 20 多岁的妹妹也来了。她们之前都没有离开过中国。黄女士说,她们对未来的危险知之甚少,但梦想着到达美国。自疫...

特朗普就职演讲中英文全文

谢谢,谢谢大家,非常感谢你们。非常非常感谢。副总统万斯,众议院议长约翰逊,参议员图恩,美国首席大法官罗伯茨,以及美国最高法院的大法官们。 克林顿总统、布什总统、奥巴马总统、拜登总统、哈里斯副总统,以及我的各位同胞, 美国的黄金时代从现在开始 。 从今天起,我们的国家将再次繁荣,并在全世界受到尊重。我们将成为每个国家的羡慕对象,不再让自己受到剥削。 在特朗普政府的每一天,我都会把美国放在第一位 。 我们的主权将被夺回。我们的安全将得到恢复。正义的天平将重新平衡。司法部和我们政府的恶劣、暴力和不公正的武器化将结束。 我们的首要任务是创造一个骄傲、繁荣和自由的国家。美国将很快变得更伟大、更强大,并且比以往任何时候都更加卓越。 我自信和乐观地回到总统职位上,我们正处于一个令人兴奋的新国家成功时代的开始。一股变革的浪潮正在席卷整个国家,阳光洒遍全世界,美国有机会前所未有地抓住这一机遇。 但是首先,我们必须诚实面对我们面临的挑战。虽然挑战很多,但它们将被美国当前所见证的这一伟大势头摧毁。 今天我们聚集在一起时,我们的政府正面临一场信任危机。多年来,一个激进且腐败的体制从我们的公民手中攫取权力和财富,而我们社会的支柱却破碎不堪,似乎完全失修。 我们现在的政府连国内的简单危机都无法应对,同时还在海外接二连三地陷入灾难性事件。 它未能保护我们辉煌、守法的美国公民,却为危险的罪犯提供庇护和保护,这些罪犯许多来自监狱和精神机构,他们非法进入我们的国家。我们有一个政府,无限制地资助外国边界的防御,却拒绝保护美国的边界,或者,更重要的是,保护自己的人民。 我们的国家在紧急情况下已经无法提供基本服务,这一点最近由北卡罗来纳州的优秀人民证明了。他们受到如此糟糕的对待。而其他几个州在几个月前发生飓风后仍在遭受痛苦。 或者更近的是洛杉矶,我们正在目睹大火仍在无情地燃烧。从几周前开始,它们毫无防备地横扫房屋和社区,甚至影响到我们国家一些最富有和最有权势的人,其中一些人现在就坐在这里。他们已经无家可归了。这很有趣。 但是我们不能让这种情况发生。每个人都无能为力。这将会改变。我们的公共卫生系统在灾难时无法提供帮助,却在其上花费了比世界上任何国家都要多的钱。 我们的教育系统则教导我们的孩子为自己感到羞愧,在许多情况下,教他们仇恨我们的国家,尽管我们试图如此绝望地向他们提供爱。所有这一切将从今天开始改变,而且...

抖音平台八种算法机制的底层逻辑,不要被算法操控,要了解算法的机制

抖音是算法机制最复杂的平台之一。平台内的每一条内容、每一个短视频,背后都是由算法支配的。同时,抖音算法还影响着我们短视频的制作和发布。这篇文章为大家总结了抖音平台的八种算法机制,助力大家做好运营工作。 抖音是算法机制最复杂的平台之一。平台内的每一条内容、每一个短视频,背后都是由算法支配的。同时,抖音算法还影响着我们短视频的制作和发布。 对于做抖音短视频的运营者来说,想要高效获取到流量,摸清抖音算法至关重要! 这篇文章为大家总结了抖音平台的八种算法机制,助力大家做好运营工作。 一、流量池算法机制 抖 音的流量池是一个庞大的内容分发网络 ,是通过一系列复杂的算法和机制,将不同的内容推荐给不同的用户群体。 具体来讲: ·   抖音系统会将创作者发布的视频,先投放在一个小范围数量的用户人群中; ·   根据短视频的点击量、播放量、完播率、互动率等数据进行评估; ·   根据短视频作品的表现数据,来决定系统是否会将短视频推荐给更大用户人群的流量池。 创作者发布的短视频都会享受到抖音官方提供的推荐流量,但流量推荐量的数据范围是不一定的,这就是流量池。 抖音流量池的推荐规则如下: 种子流量池 创作者上传完短视频,视频在经过审核之后会先进入到种子流量池中,此时的流量分发人数只有数百人。如果视频在种子流量池中有很好的完播率,那么接下来才会被推荐给更多人;如果各项数据未达到要求,则会减少推荐量。 多级流量池 抖音的流量池是分级的,每一级都有不同的用户规模和推荐要求。 种子流量池中的优质视频才会获得叠加推荐,此时会进入到更高一级的初级流量池中,能够获得好的完播率和互动量的视频会紧接着推荐到中级流量池。以此类推,再到高级流量池。 这种多级流量池的设计,让优质的短视频内容可以获得更多的曝光。 延后曝光 偶尔也会出现这样一种情况,视频发布后的几天或者几周内,数据效果都不是很好,但是某天就突然火了,这就是我们说的 “延后曝光”,是抖音系统考虑了时间效应后的展示效果。 可能是因为用户翻看之前的视频时,带动了视频的播放量,抖音重新将这条视频推荐到更大的流量池中,从而获得新的曝光。 对于创作者来说,想要突破抖音冷启动流量池,就需要密切关注下面几个指标: 二、标签算法机制 无论是创作者,还是用户,都会被抖音系统打上不同类型的标签。 · ...

华尔街日报:制药行业正在经历自己的 DeepSeek 时刻

  制药行业正在经历自己的 DeepSeek 时刻 不仅仅是人工智能——中国生物技术公司现在开发药物的速度比美国同行更快、成本更低 生物技术行业的 DeepSeek 时刻 到来于去年秋天。 那时 Summit Therapeutics  SMMT   -2.71  % 减少;红色向下三角形 亿万富翁鲍勃·杜根 (Bob Duggan ) 支持的   Summit 宣布, 其药物在肺癌头对头试验中优于 默克公司的重磅疗法 Keytruda。Keytruda 是每年收入 300 亿美元的免疫疗法巨头,是制药行业最畅销的药物,长期以来一直占据市场主导地位。因此,出现更强大的竞争对手的前景令人震惊。更引人注目的是:Summit 两年前刚刚从一家鲜为人知的中国生物技术公司 Akeso  9926获得了该药物的许可. 这一消息让 Summit 的市值增加了数十亿美元,尽管该公司尚未获得任何药物批准,但该公司却跃居生物技术行业的前列。尽管 Summit 的药物尚未获得美国监管机构的批准,但这一结果对整个行业来说都是一个分水岭,凸显了来自中国的竞争威胁。 中国在生物技术领域的崛起已历经多年,但现在已无法忽视。2020 年,在价值 5,000 万美元或以上的大型医药交易中,只有不到 5% 涉及中国。据 DealForma 称,到 2024 年,这一数字已飙升至近 30%。十年后,许多进入美国市场的药物将源自中国实验室。 中国生物科技的繁荣与其科技领域的崛起如出一辙。在这两种情况下,中国都已从制造业向价值链上游迈进,成为更先进的创新中心,在曾经由美国主导的行业中展开竞争。该行业的增长有几个原因。首先,过去十年来,许多在美国接受过培训的顶尖科学家回到了中国,推动了上海周边生物科技中心的兴起。正如 DeepSeek 打造出一款强大的聊天机器人一样——据称是在预算紧张、半导体资源有限的情况下——中国生物科技公司也更加拼命,利用技术娴熟、成本低廉、行动速度更快的劳动力。 此外,公司在中国开展临床试验的成本仅为在美国成本的一小部分,而中国监管体系的最新变化也简化并加快了开展研究的审批流程。  目前,中国生物技术创新大多是渐进式的,而非突破性的。许多公司专注于改进现有药物——调整化学成分、提高疗效或以关键方式使其与众不同。 但中国...

对美国繁荣的真正威胁

FT: 即便在动荡的当下,也很难想象未来会有什么天翻地覆的变化。但国家的命运确实会发生变化,而且变化往往十分剧烈。政治会带来后果。因此,我们应该创造性地思考这些后果可能是什么,以及我们可能会如何看待这些后果。 作为一名习惯于研究长期增长和停滞的经济学家,我可以想象自己在 2050 年评估美国历史(假设到那时我还活着,而且没有老糊涂)。当然,这个故事还有待讲述。但它可能会是这样的。 衰落来得 突然,出乎意料。20 世纪是美国的世纪,在 21 世纪的头几十年,美国看起来更加势不可挡。随着它在人工智能领域取得领先地位,其经济表现强劲,注定会超越仍在遭受 2007-09 年金融危机和 2020-22 年新冠疫情影响的西欧竞争对手。中国是一个更强大的对手,但许多评论家已经开始否认中国超越美国的可能性。2030 年代初,美国经济停止增长,甚至落后于欧洲,这让大多数人感到惊讶。 历史学家和记者一直在争论此后发生的事情。一些人关注唐纳德·特朗普第二任期的经济政策:对盟友征收关税,经过一番反复,引发了一场全球贸易战,损害了而不是帮助了美国制造业,并导致通胀飙升;进一步减税企业和高收入美国人,导致联邦债务从原本庞大的 36 万亿美元增加到 50 多万亿美元。 去年 1 月,唐纳德·特朗普在新罕布什尔州曼彻斯特的竞选集会上 © Mark Peterson/Redux/Eyevine 其他人则认为特朗普第二任期内出现的“政府科技联合体”才是真正的罪魁祸首。随着所有人工智能和加密货币监管法规的取消以及特朗普司法部宣布不会施加任何反垄断压力,科技行业进一步整合,少数几家大型企业开始主导整个行业。这不仅减缓了新的有用创新,还为 2030 年的科技大崩溃埋下了祸根,当时数万亿美元从经济中蒸发,因为很明显,对人工智能的大部分巨额投资都没有得到回报。 另一派则认为,腐败始于第 46 任总统乔·拜登,在他的领导下,通货膨胀飙升,联邦债务激增,监管变得更加政治化,对企业造成压制——尽管特朗普做出了承诺,但他从未扭转这一局面。相反,由特朗普盟友埃隆·马斯克管理的新成立的政府效率部 (Doge) 专注于解雇和恐吓同情上一届政府的公务员。这对改善商业环境或竞争力没有多大帮助,反而进一步削弱了对腐败的监督。 美国世纪的一个基本支柱是该国能够以有利于自身经济(包括金融和科技产业)的方式塑造世界秩序。但美国退出巴黎协...