跳至主要内容

WIRED英伟达黄仁勋谈人工智能

科技界似乎对这家公司的技术产品趋之若鹜。其盈利能力令人瞩目。《WIRED》深入探讨了 Nvidia 的首席执行官,黄仁勋的独到见解。Nvidia CEO 黄仁勋正在推动 AI 革命


与黄仁勋的一场对话,仿佛需要预先打上警示标签。这位 Nvidia CEO 对 AI 的未来满怀激情,经过将近一个半小时的深入交流,我被深深地说服,相信未来定将是一片神经网络构建的乐土。我仿佛已经看到了一切:机器人的新时代、医学上的重大突破、自动驾驶汽车、能够记住对话的聊天机器人。而位于圣克拉拉的 Nvidia 公司园区的建筑,每一处我目光所及之地,都是三角形嵌套着三角形,这一设计帮助 Nvidia 打下了财富的基础。难怪我会如此沉迷,完全被黄仁勋的视角所吸引。


黄仁勋无疑是当下乃至未来一段时间内的关键人物。各大科技公司对 Nvidia 提供的超级计算 GPU 购之不竭。今天的 Nvidia 已非昔日之影,它曾是为 X 世代的视频游戏显卡供货商,通过高效渲染海量三角形,让图像生动起来。而今,Nvidia 的硬件引领我们走进了一个新时代,在这个时代中,我们与计算机对话,它们回应我们,而且,根据你谈话的技术人士所言,最终可能还会超越我们。


在我们的见面中,现年 61 岁的黄仁勋身穿他标志性的皮夹克,脚蹬一双极简风格的黑色运动鞋。他告诉我,他讨厌周一的早晨,因为他周日要工作一整天,到了正式工作周的开始就已经累了。但你绝对看不出他的疲惫。两天后,我参加了一个健康护理投资研讨会,场内聚满了生物技术的极客和西装革履的人士,但黄仁勋在台上依旧活力四射。


“这并非我惯常交流的圈子。生物学家和科学家们,他们总显得那么严肃,”黄仁勋手持麦克风,引得台下一片笑声。“我们谈论创造、改善和加速,而你们讲的是靶向和抑制。”他渐渐过渡到他的建议:“如果你打算在硅片上进行药物设计和发现,你很可能需要处理大量数据。如果你在人工智能计算上遇到困难,嘿,不妨给我们发封邮件。”


黄的策略始终是让 Nvidia 站在每一次重大科技浪潮的前线。2012 年,一群研究人员发布了名为 AlexNet 的革命性图像识别系统,该系统采用 GPU(而非传统的 CPU)来执行其代码,从而开启了深度学习的新纪元。面对这一趋势,黄迅速指示公司全力进军 AI 领域。2017 年,谷歌推出了一种名为 Transformer(即 ChatGPT 中的“T”)的创新神经网络架构,激发了当前的 AI 热潮,Nvidia 也因此得以向渴望此技术的公司提供专注 AI 的 GPU,占据了市场的有利位置。


目前,Nvidia 已占据超过 70% 的 AI 芯片市场销售份额,估值逼近 2 万亿美元。2023 年最后一个季度,其收入达到了 220 亿美元,同比增长了 265%。而且,过去一年其股价上涨了 231%。黄不仅凭借他的聪明才智,在他所做的每一件事上都取得了非凡成就,而且还拥有难以置信的好运——每个人都在探寻他的成功秘诀。


然而,没有人能够永远处于巅峰。黄现在正处于美中科技战的风口浪尖,同时也面临监管机构的严格审查。在 AI 芯片领域与黄竞争的不乏谷歌、亚马逊、Meta 和微软等行业巨头,它们拥有科技界最深厚的资金。去年 12 月底,半导体公司 AMD 推出了一款大型 AI 计算处理器,意在与 Nvidia 展开竞争。同时,众多初创公司也纷纷加入战局。根据 Pitchbook 研究公司的数据,仅去年第三季度,风险资本就向 AI 芯片领域投资了超过 8 亿美元。


因此,黄从未停歇。甚至在接受采访时,我惊讶地发现,他开始反问我,询问我的来历以及我是如何来到湾区的。


黄仁勋: 你和我都是斯坦福大学的校友。


Lauren Goode: 是的,我读的是新闻专业,而你则没有。


我其实很希望我也读过新闻专业。


那是为什么呢?


因为我非常钦佩 Adobe 的 CEO Shantanu Narayen,作为一个领导者和人,他说他一直梦想成为一名记者,因为他热爱讲故事。


看来能有效讲述企业故事是构建企业的重要部分。


没错,制定策略就是讲故事,建设企业文化也是讲故事。


你多次提到,并不是通过一份投资推介来介绍 Nvidia 的。


确实如此,关键在于讲好我们的故事。


因此,我想首先分享一位科技界同行向我提起的一个观点。他提到,尽管 Nvidia 比亚马逊只大一岁,但从很多方面来看,Nvidia 保持的初心和探索精神却似乎比亚马逊更加浓厚。你是怎样做到始终保持这种新鲜感和进取心的呢?


说实话,这确实是个非常棒的表达。我每天醒来都抱着首日上任的心态,因为我们总是在尝试前所未有的挑战。这条路上既充满希望也伴随着风险。就像刚才,我参加了一个会议,我们讨论的项目对公司来说是全新的尝试,而我们还在探索如何将它做到最好。


那么,这个新尝试是什么呢?


我们正着手构建一种全新模式的数据中心,我们将其命名为“AI 工厂”。按照现有的模式,数据中心里往往需要许多人共用一套计算机系统,将他们的数据存储于同一个庞大的设施中。而“AI 工厂”的构想则更接近于发电站的工作原理,这种设计思路十分独特。过去几年我们一直在致力于这个项目,现在则到了将其商品化的阶段。


你们准备给它取什么名字?


目前我们还没有确定最终的命名。但可以肯定的是,它将广泛出现在各个领域。无论是云服务提供商,还是我们自己,都将参与到它的建设中。从生物技术公司到零售、物流行业,乃至未来的汽车制造,每个行业都将拥有自己的“AI 工厂”,既有生产实体商品的工厂,也有致力于为汽车等产品赋能的 AI 创新工场。事实上,伊隆·马斯克就在我们讲话时已经在这方面取得了领先。他对未来工业企业的构想远超出了大众的想象。


你之前提到,你管理着一个扁平化的组织结构,直接向你汇报的高管有 30 到 40 人,这样做是为了更好地融入信息流。那么,最近有什么新兴的领域或技术让你觉得,“这可能是 Nvidia 未来的赌注”?


在今天这个时代,信息的传递已不再像古老时代那样从上而下一层层传递,当时我们还没有电子邮件、短信等即时通讯工具。如今,信息可以迅速自由流动。因此,采用传统的层级式信息流动模式已变得不再必要。一个平级的组织结构能让我们更快地适应变化,这一点至关重要,因为我们所处的技术领域正以前所未有的速度快速进步。


观察 Nvidia 技术的演进路径,你会发现,过去 10 年间,我们在 AI 领域取得的进步已经达到了惊人的百万倍速度增长,这远远超出了摩尔定律的预测。在这样一个指数级增长的世界里,我们期望信息能够横向快速传播,而非层层向下递交。


但我想问你,对你来说,什么是你的“罗马帝国”呢?换言之,现在有什么相当于变革性的 Transformer 论文的东西?你认为现在正在发生哪些事情,将会彻底改变未来呢?


我们正在关注几个领域。其中一个领域尚未有明确的定义,但它涉及到我们在基础机器人学方面的探索。如果机器可以创作文本和图像,那么它是否也能够创造动作呢?答案很有可能是肯定的。如果机器能够实现这一点,它就能理解意图并创造出一种广义的动作表达。因此,仿人机器人的发展似乎已经指日可待。


我认为,围绕状态空间模型(State-Space Models,SSM)的研究,能够让机器学习到长序列的模式而不会导致计算成本呈平方增长,这或许将是继 Transformer 之后的下一个重大突破。


这将如何改变我们的生活?能给出一个具体的例子吗?


想象一下,你能与计算机进行长时间的对话,而对话的上下文永远不会丢失。即使中途改变话题,稍后再回到之前的讨论,之前的上下文也能完整保留。这意味着,机器能够理解像人类基因组这样长链条的序列,并通过分析遗传代码来理解其含义。


距离这一天我们还有多远?


从过去到现在,从 AlexNet 到超越人类水平的 AlexNet,我们只用了约五年时间。机器人的基础模型可能就在不久的将来——我预计是明年的某个时刻。从那时起,未来五年内,我们将目睹一些令人震撼的成就。


哪个行业将最受益于广泛训练的机器人行为模型?


实际上,重工业是全球规模最大的行业之一。电子的移动相对简单,但原子的移动则要困难得多。无论是运输、物流,还是将重型物品从一个地方转移到另一个地方,发现新药——所有这些过程都涉及到对原子、分子、蛋白质的深入理解。这些都是 AI 尚未深入影响的巨大而重要的行业。


提及到摩尔定律,它现在还重要吗?


摩尔定律如今已经转变为更多关于系统集成的问题,而不仅仅是芯片的问题。它关乎多个芯片如何高效地相互连接。大约十到十五年前,我们开始尝试将计算机的组件解耦,以便能夠将多个芯片连接起来使用。


这正是你们在 2019 年收购以色列公司 Mellanox 的原因。Nvidia 当时表示,现代计算对数据中心提出了巨大需求,而 Mellanox 的网络技术能让加速计算变得更加高效。


确切无误。我们之所以收购 Mellanox,目的是通过扩展我们的芯片技术,让整个数据中心转变为一个超级计算器,从而推动现代 AI 超级计算机的发展。这反映了我们对摩尔定律终结的认识,并且意识到如果我们想继续推进计算能力的发展,就必须在数据中心的层面上进行扩展。我们重新审视了摩尔定律的提出背景,并得出结论:摩尔定律不应成为我们发展计算能力的桎梏。我们必须超越摩尔定律,寻找新的扩展途径。


Mellanox 的收购如今被认为是 Nvidia 极为明智的举措。最近,你们试图收购 Arm,这是世界上最重要的芯片知识产权公司之一,但最终因为监管机构的阻挠而未能成功。


那本来会是一件美好的事情!


虽然我不确定美国政府是否认同这一点,但不妨先不讨论这个。目前,你们在考虑收购时,有哪些具体的方向或领域?


这些大型系统的操作系统极其复杂。你们如何构建一个计算体系中的操作系统,来管理我们 GPU 内部数千万、数亿乃至十亿级别的微小处理器呢?这是一个巨大的挑战。如果外部有团队能够处理这一问题,我们可以选择与他们合作,或者采取更进一步的行动。


这么说来,对 Nvidia 而言,拥有一个操作系统并将其打造成一个更加完善的平台显得至关重要。


我们是一个以平台为核心的公司。


随着你们越来越多地将自己定位为一个平台,所面临的问题也随之增加。对于平台产出的各种问题,比如自动驾驶汽车的行为模式、医疗设备的误差范围,或是 AI 系统的偏差问题,你们是如何应对的?


虽然我们不专注于应用程序开发,但我们在为特定行业服务时,会尽可能地做到极致,同时又力求精简。例如,在医疗领域,我们不专长于药物研发,我们的强项在于计算。在汽车行业,我们的专长不在于制造汽车,而是开发擅长 AI 的汽车计算系统。对一家公司来说,要在所有这些领域都做到最好是非常困难的,但我们可以在 AI 计算领域达到卓越。


去年有报告称,一些客户等待了好几个月才能获得你们的 AI GPU。现在情况怎样了?


嗯,我看今年我们赶不上生产供应了,今年不行,明年恐怕也难。


目前要等多久?


我不清楚现在的等候期是多久。但今年对我们而言,也标志着新一代产品的起点。


你是说你们传说中的新 GPU,Blackwell 吗?


正是。我们即将推出的新一代 GPU,Blackwell 的性能表现非常惊人。这将是一次令人兴奋的飞跃。


这是否意味着客户将需要更少的 GPU?


这正是我们的目标。我们旨在极大降低训练模型的成本,从而使人们能够放心地扩展他们想要训练的模型规模。


Nvidia 对许多 AI 初创企业进行了投资。据去年报道,你们投资了超过 30 家。这些初创公司是否能在等待硬件的队列中获得优先权?


他们和所有人一样面临供应短缺的挑战,因为他们中的大多数使用的是公共云服务,所以他们必须自己与公共云服务供应商进行协商。他们能获得的优势是进入我们的 AI 技术平台,这意味着他们能够利用我们的工程技术和优化 AI 模型的特殊方法。我们为他们提高了效率。如果你的处理能力提高了五倍,那么实际上你就得到了五倍于原有的 GPU 性能。这就是我们能为他们提供的。


在这方面,你认为自己是行业的风向标吗?


不,我们之所以投资这些公司,是因为它们在各自的领域表现出色。能够投资于它们,对我们来说是一种荣幸,并非反过来。这些公司背后是一些世界上最为杰出的思想。他们不依赖于我们来肯定他们的价值。


随着机器学习越来越偏向于推断而非训练——也就是说,如果 AI 的工作变得不那么依赖于高强度计算,会发生什么情况?这会减少对你们 GPU 的需求吗?


我们对推断充满热情。实际上,我认为 Nvidia 目前的业务中,大概 40% 是推断,60% 是训练。这是一个积极的信号,因为它意味着 AI 正在逐渐实现其应用价值。如果我们的业务 90% 依赖于训练,只有 10% 是推断,那么可以认为 AI 还处在研究阶段。这是七八年前的情况。但如今,每当你向云端输入一个命令,它生成的东西——无论是视频、图像、2D 还是 3D 内容、文本或是图表——背后很可能是由 Nvidia GPU 加以支持的。


你认为对 Nvidia GPU 的需求会有减少的时刻吗,特别是在 AI 领域?


我认为我们现在正处于生成式 AI 革命的黎明期。目前,全球的计算工作大多仍依赖于检索机制。简单来说,当你在手机上操作时,它会向云端发出请求,以获取所需信息。系统可能会整合多个信息源,通过 Java 技术,在你精美的屏幕上向你展示结果。未来,计算技术将更依赖于 RAG(检索增强生成)。这意味着,系统在提供个性化内容时,将更多地依赖于生成技术,而不是简单的信息检索。


这种生成过程将由位于某处的 GPU 负责。因此,我相信我们正在步入以检索增强和生成技术为核心的计算革命新时代,生成式 AI 将成为几乎所有领域不可或缺的一部分。


近期的消息是,你们与美国政府合作,共同研发了符合出口管制要求、可以向中国出口的芯片。据我所知,这些芯片并非最尖端。你们与政府合作的程度如何,以确保能够继续在中国市场经营?


首先要明确的是,这涉及的是出口管制而非制裁。美国政府认为 Nvidia 的技术及其 AI 计算基础设施对国家安全至关重要,因此施加了出口管制。我们在首次实施时就已遵守这些规定——


那是在 2022 年 8 月。


没错。随后在 2023 年,美国政府对出口管制条款进行了扩充,这迫使我们再次对产品进行设计。我们已经完成了这一过程,并正在开发一系列符合当前出口管制规定的新产品。我们与政府部门保持着密切的合作,以确保我们的解决方案能够符合他们的预期。


对于这些限制可能促使中国发展出竞争性 AI 芯片的担忧程度如何?


中国已经拥有了可以竞争的技术和产品。


确实如此。虽然不是数据中心级别的,但华为去年推出的 Mate 60 智能手机搭载的自研 7 纳米芯片引起了市场的关注。


华为是一家卓越的公司。尽管他们受到所能获取的半导体加工技术的限制,但通过集成多个这样的芯片,他们依然能够构建出大型系统。


那么,你对中国在生成式 AI 领域追赶美国的整体担忧程度如何?


这一规定将削弱中国接触到尖端科技的能力,意味着西方国家——那些不受出口控制影响的国家,将能够使用更先进的技术。这些技术正以迅猛的速度发展。因此,这种限制显著增加了中国面临的成本。理论上,可以通过集成更多的芯片制造系统来解决问题,但这会提高每个芯片的成本。这或许是最简单的理解方式。


为了继续在中国销售而生产符合规定的芯片,这对你们与 TSMC——台湾半导体业的骄傲,有没有影响?


没有。规定是明确的,就像速度限制一样。


你说过多次,你的超级计算机里有 35,000 个部件,其中只有 8 个来自 TSMC。听到这,我以为这个比例很小。你是否在轻描淡写你对 TSMC 的依赖?


不,一点也不。


那你想通过这个强调什么?


我只是想强调,建造一个 AI 超级计算机,需要大量的其他组件。实际上,在我们的 AI 超级计算机项目中,几乎整个半导体产业都是我们的合作伙伴。我们已经与三星、SK 海力士、英特尔、AMD、博通、Marvell 等紧密合作。在我们的 AI 超级计算机项目中,我们的成功同时也是一大批公司成功的原因,我们对此感到非常欣慰。


你多久联系一次 TSMC 的 Morris Chang 或 Mark Liu?


经常。持续不断。


你们讨论什么内容?


最近我们讨论的是先进封装技术、未来几年的产能规划以及高级计算能力的需求。CoWoS[TSMC 的专利技术,能将芯片和内存模块集成到一个封装中]需要新的工厂、生产线和设备。因此,他们的支持至关重要。


我最近和一位专注于生成式 AI 的 CEO 谈话。我问 Nvidia 未来可能的竞争对手是谁,对方提到了谷歌的 TPU,还有人提到了 AMD。我想对你来说这并不简单就是一个非此即彼的问题,但你认为你最大的竞争对手是谁?谁让你夜不能寐?


劳伦,确实如此。TPU 团队表现卓越,实际上,他们做得非常好。AWS Trainium 和 AWS Inferentia 团队也都是出类拔萃的精英团队,表现优异。微软正在进行名为 Maia 的内部 ASIC 开发。中国的每家云服务提供商都在自主开发芯片,此外还有众多初创企业和现有半导体公司也在竞相开发高性能芯片。简而言之,大家都在研制芯片。


这本不应让我夜难以入眠。我得确保自己工作到极度疲惫,夜里任何事都不会干扰我的休息。这是我唯一能把握的。


但真正让我激动地起床的是我们持续的承诺:在全球,我们是唯一能与所有人合作,在数据中心级别和全栈领域建造 AI 超级计算机的公司。


我有一些私人问题想向你提问。


[ 黄对公关代表说:] 她做足了功课。而且,我确实很享受我们的谈话。


我也很高兴。我也是这么想的。我其实还想——


顺便说一下,当 Morris 或是我认识多年的朋友请我主持访谈时,目的并不是让我坐下来提问题。我们之间是在进行一场对话。我们需要考虑观众可能感兴趣的内容,用心去感受。


因此,我向 ChatGPT 提了个关于你的问题。我想知道你是否有纹身,因为我正打算建议我们下次见面时给你纹一个。


如果你纹,我就跟着纹。


我已经有一个了,但我还想再加一个。


我也有一个纹身。


是的。这是我从 ChatGPT 那儿了解到的。据说当公司股价达到 100 美元时,你纹了一个公司标志的纹身。但后来你表示,因为疼痛超出预期,可能不会再纹了。它还说你当时哭了,是这样吗?


确实有那么一点。我建议纹身前可以喝点威士忌,或者吃些 Advil 来缓解疼痛。而且,我觉得女性对疼痛的忍受能力更强,比如我的女儿就有一个相当大的纹身。


长篇深阅

深入探讨和前沿特稿,让你在每个周日都能变得更加聪慧和锐利。


想来个纹身?我觉得三角形不错,毕竟,谁会不喜欢三角形呢?它们是几何学中的完美象征。


或者,不如试试 Nvidia 大楼的剪影吧!它完全由三角形构成。


这可是份真挚的承诺。我想知道,你个人多久使用一次 ChatGPT、Bard 或类似工具?


我常用 Perplexity,ChatGPT 也很不错。几乎每天我都会用到它们。


都用来做些什么?


研究。比如说,在计算机辅助的药物发现领域。你可能对计算机辅助药物发现的最新进展感兴趣。因此,你需要设定一个大的研究框架,然后在这个框架下,逐渐深入提问。这正是我喜欢大语言模型的地方。


听说你过去常举重,现在还练吗?


已经不了。我现在力争每天完成 40 个俯卧撑,这不会花费我太多时间。说到锻炼,我可是个懒人。刷牙时顺便做些深蹲。


最近你在 Acquired 播客上的一条评论火了。主持人问,如果你现在三十岁,考虑创业,你会选择什么项目?而你的回答是,你根本不会考虑创业。对这个答案,你有补充的想法吗?


这个问题可以有两种解读,我选择了这样回答:如果我当时知道现在我所知道的一切,我可能会因为害怕而不敢迈出那一步。知道太多,就会让人畏缩不前。


创业,似乎需要一点儿“妄想”。


这正是无知给予的优势。你不知道前路有多艰难,也不会预见到等待你的痛苦与挑战。现在的我,遇到充满信心、满口轻松应对的创业者时,我会给予他们支持,但心里清楚,事情往往不会像他们想象的那么简单。


在管理 Nvidia 的过程中,你认为自己做出的最大牺牲是什么?


那就是和其他创业者一样的牺牲。你得付出异常艰苦的努力。很长一段时间内,几乎没人看好你。唯有自己坚信未来的胜利。面对不安、脆弱甚至有时的羞辱,这些都是真实的挑战。虽然人们不常提及,但每一位 CEO 和创业者,在遭遇公开失败时,都会感到尴尬,他们也和我们每一个人一样,有着共同的人性。


当有人问我,用你今天所拥有的一切去回看,你还会选择创立 Nvidia 吗?我的回答是:“绝对不是。”但如果早知道 Nvidia 会成长为现在的模样,我还会创立这家公司吗?别开玩笑了,为此我愿意付出一切。


更新于 2024 年 2 月 26 日,下午 5:05 ET:本文已根据 Nvidia 提供的最新信息进行了更新。黄仁勋此前指出,Nvidia 的 AI 计算业务由 70% 的推断和 30% 的训练构成。实际正确的比例是 40% 的推断和 60% 的训练。

评论

此博客中的热门博文

付鹏11月24日在HSBC内部演讲速记

《2024年年终回顾和2025年展望——对冲风险VS软着陆》   上篇 正值年底,虽然刚才汇丰一直强调大家不录音不录像,但大概率你挡不住。我在这儿讲话会谨慎一些,非常小心谨慎,大概率会有人透露出去,放到YouTube上,基本上所有见我都说付总我在YouTube上看过你的视频,我说那都是盗版的,靠盗版发财的也不少。 今天和大家分享的内容基本上都是官方的,回顾会多一点,展望不多,因为这个月展望完了之后下个月怎么办?有些话对我来讲我倒觉得很简单,本质上原来我们是做Hedge Fund出身,所以我们的逻辑框架整体具有极强的延续性,不是说今年去讨论,或者说明年去讨论。 惯性思维从2016年开始,我一直在跟大家强调这个世界已经完全不一样了。当然经历过过去的几年时间,我相信在座各位应该对这番话的理解变得越发深刻。 2016年实际上是美国特朗普的第一次大选,我有一个特点,我的特征是如果我觉得什么地方有投资机会,我可能第一时间去一线调研,我不喜欢看YouTube,我也不喜欢在网上扒。当然你会说,现在ChatGPT很强大了,人工智能好像能帮你解决很多问题,但你们有没有想过,可能广泛流传或者广泛传播的很多信息是错的。这一点在2012年当时我从日本做完调研回来之后,我的感悟是最深的。 当然去日本有一个重要的人物,名字叫本森特,很快大家就会非常熟悉他的,目前来讲应该是特朗普政府提名的美国财长。本森特原来是索罗斯基金实际掌控人,因为索大爷已经年龄很大了,去年的时候才刚刚把基金的业务交给他儿子亚历山大,但在这之前,最主要的几场战役本质上来讲都是本森特在主导。 2012年当时我从北京去香港约朋友们吃饭的饭局上,当时斯索罗斯基金在香港办公室跟我说,本森特从这儿去了日本。我说OK。我经常说一句话“站在巨人的肩膀上看问题。” 当然你知道,网民们最可怕的地方是巴菲特“SB”、索罗斯“SB”,我最“牛逼”。你要记住,他们的所有行为一定有很大的变化,很多人可能都不知道,巴菲特第一次去是2011年,我们正在讲福岛核电站泄漏,核废水污染以后海鲜不能吃的时候,一个80多岁的老头顶着核辐射泄漏去日本吃海鲜了,当然他去日本干吗,这其实很关键。 之后我们跑到日本做完调研回来之后那几年,我陆陆续续跟很多人讲,日本正在发生变化,日本的利率结构都会随之变化的,当然包括日本的证券市场。今年日本股市终于走出这35年了,创下...

揭秘DeepSeek:一个更极致的中国技术理想主义故事

  做贡献者,而非搭便车者。 文 | 于丽丽 编辑 | 刘旌 中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。 一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。 在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。 弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。 这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA( 一种新的多头潜在注意力机制 )架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。 在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。” 在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。 多位行业人士告诉我们, 这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。” 而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见: 美国更擅长从0-1的技...

高善文:2025年可能是一个重要的转折点,GDP增速每一年被高估了3个百分点,累计高估了10个百分点

  主要内容 GDP增速每一年被高估了3个百分点,累计高估了10个百分点; 中国经济增长需要较长时间恢复到泡沫破灭前,积极状态下需3-4年; 经济转型有一定成绩,但周期对中性行业的影响程度大于转型; 数据反映一个省人口越年轻,消费增长越慢,越老则增长越快; 累计有4700万劳动力,无法正常找到工作;就业数据下降,就业质量恶化; 就业和增长的关系在过去两年显得非常反常。 (路演时间2024年12月3日) 一、转型取得积极进展,但周期性压力超过了成长的烦恼 2018年前后,中国经济增长模式逐步摆脱依靠债务基建和房地产驱动的增长形式,转向依靠技术进步和产业升级,经济转型过程中有些行业兴起,有些行业衰落,总量层面经济增速放慢可以理解可以想像,属于转型过程中的成长的烦恼,更多来自于周期的扰动而不是转型的代价。 我们以全部上市公司为基础(A股、港股,中概股),把这些公司分为三类, 1.支持类2500家,政府支持鼓励,支持经济转型引导方向; 2.限制类500家,政府试图加以规范管理和限制,行业自身也在走向衰落; 3.中性类2600家,商贸零售社会服务,和转型过程没有很紧密的联系,整体属于中性。 上市公司营业收入占2024GDP总量50%以上,具有一定代表性。 上市公司营业收入占比,中性类占比60%,支持类占比20%,限制类占比低一些。 上市公司总市值占比,中性类略高于50%,限制类和支持类在20%上下。 2016年至今,中性类行业的营业收入/总市值占比总体稳定, 2018-2020年之间,限制类行业占比明显收缩,支持类行业占比明显扩张 ,政府试图限制的行业在收缩,政府试图支持的行业在扩张,营业收入和总市值维度都是如此。 说明,经济转型在确定性的发生。无论经济增速如何波动,中性行业的占比一直保持不变,不受到限制性和支持性政策的影响。 观察股价表现,我们把所有支持类上市公司视为一家公司, 设定在2018年股价为1,其他类别同理。2018年以来,支持类板块的股价上升,限制类板块的股价大幅下跌,二者之间的裂口是过去十几年没有看到的,这说明政府引导经济转型的努力在金融市场的定价反映出来。2010-2018年,股价表现则完全相反,进一步确认政府引导经济转型的转折点。 人们很容易把总量层面的问题和转型结构联系起来,甚至可能把总量的问题归结为转型的问题。 我们通过观察中性行业的表现,去剥...

三联深度:逃出妙瓦底 缅甸诈骗园区

 原创 飞天小豚 三联生活周刊 2025年01月10日 18:06 北京 *本文为「三联生活周刊」原创内容 没有高薪,没有偷渡,更没有去缅甸、柬埔寨这些危险的国家,中国留学生李奥不明白,为什么自己只是在安全的国家想正常找一份工作,却不断跌入招聘陷阱,最终沦为人口贩卖的牺牲品。在经历过一场在缅东的死亡之旅后他才明白,海外华人招聘圈已经被博彩、诈骗等灰色产业渗透,而印象中的那些城市,已经不同以往。 记者|夏杰艺 实习记者|顾靓楠 陷阱 2022年6月5日,李奥站在东南亚一条混浊的泥水河前。河很窄,不过五六米,两岸是一样的黄褐色烂泥地和杂乱的野树林,河面上一条孤零零的小船。 很久之后他才知道,这条不起眼的小河是莫伊河,位于泰缅边境交界处,是知名的偷渡“天堂”。 这里荒无人烟,见不到警察和海关人员,和他同行的是一个肯尼亚女人和一个二三十岁的中国男子。三人的背后跟着四名大汉,他们不怎么说话,但其中一人手上拿着一把小臂长的砍刀,明晃晃的。 泰缅边境的莫伊河岸(摄于2022年) “They are human traffic.”旁边的肯尼亚女人意识到自己的命运,轻声说道。李奥也明白,他们三人已经沦为“猪仔”——人口贩卖的牺牲品。 李奥是浙江台州人,27岁,高二时被父母送到英国读书,随后进入英国利物浦大学学习,但因家中破产被迫辍学,没能获得高中和大学文凭。他的唯一优势是英语,所以工作后有一半时间都在中东、非洲等地的华人企业就职,从事翻译或行政工作。在李奥看来,海外华人企业的待遇更优厚:工资大多在每月一万五千元以上,还包食宿。 2022年初,他先是在肯尼亚的蒙巴萨为江门机械松林有限公司工作,后来又换到阿联酋阿布扎比,在中国通信服务(CCS)的分公司做项目经理,由于岗位期望与公司产生冲突,5月,他辞职来到迪拜,边旅行边求职。 李奥对本刊回忆,自己当时在迪拜当地的华人生活网站“迪拜全酋通”上浏览招聘信息,注意到了一家泰国曼谷的企业。该企业声称从事跨境电商业务,老板需要招聘一名助理兼翻译。该企业跟李奥约了一次英文电话面试,并要求他录制了一则自我介绍的英文短片,然后发放了入职邀请。在李奥看来,该企业和大部分他打过交道的海外华人企业类似——入职程序比较随意,薪资每月一万多元,包住宿和来程机票,但不愿意给劳动者办工签,而是以旅游签入境。“曼谷,在我心里还是一个比较安全、讲法治的地方,...

2024年12月9日中共中央政治局会议新华社通稿

中共中央政治局12月9日召开会议,分析研究2025年经济工作;听取中央纪委国家监委工作汇报,研究部署2025年党风廉政建设和反腐败工作。中共中央总书记习近平主持会议。 会议认为,今年是实现“十四五”规划目标任务的关键一年,以习近平同志为核心的党中央团结带领全党全国各族人民,沉着应变、综合施策,经济运行总体平稳、稳中有进,我国经济实力、科技实力、综合国力持续增强。新质生产力稳步发展,改革开放持续深化,重点领域风险化解有序有效,民生保障扎实有力,全年经济社会发展主要目标任务将顺利完成。 会议强调,做好明年经济工作,要以习近平新时代中国特色社会主义思想为指导,全面贯彻落实党的二十大和二十届二中、三中全会精神,坚持稳中求进工作总基调,完整准确全面贯彻新发展理念,加快构建新发展格局,扎实推动高质量发展, 进一步全面深化改革,扩大高水平对外开放,建设现代化产业体系,更好统筹发展和安全,实施更加积极有为的宏观政策,扩大国内需求,推动科技创新和产业创新融合发展,稳住楼市股市,防范化解重点领域风险和外部冲击,稳定预期、激发活力,推动经济持续回升向好,不断提高人民生活水平,保持社会和谐稳定,高质量完成“十四五”规划目标任务,为实现“十五五”良好开局打牢基础。 会议指出, 明年要坚持稳中求进、以进促稳,守正创新、先立后破,系统集成、协同配合,实施更加积极的财政政策和适度宽松的货币政策,充实完善政策工具箱,加强超常规逆周期调节,打好政策“组合拳”,提高宏观调控的前瞻性、针对性、有效性。要大力提振消费、提高投资效益,全方位扩大国内需求。要以科技创新引领新质生产力发展,建设现代化产业体系。要发挥经济体制改革牵引作用,推动标志性改革举措落地见效。要扩大高水平对外开放,稳外贸、稳外资。要有效防范化解重点领域风险,牢牢守住不发生系统性风险底线。要持续巩固拓展脱贫攻坚成果,统筹推进新型城镇化和乡村全面振兴,促进城乡融合发展。要加大区域战略实施力度,增强区域发展活力。要协同推进降碳减污扩绿增长,加快经济社会发展全面绿色转型。要加大保障和改善民生力度,增强人民群众获得感幸福感安全感。 会议强调, 要加强党对经济工作的领导,确保党中央各项决策部署落到实处。要充分调动各方面积极性,调动干部干事创业的内生动力。要坚持求真务实,统筹发展和安全,增强协同联动,加强预期管理,提高政策整体效能。要做好民生保障和安全稳定...

市场对中国通货紧缩螺旋发出警报

彭博社: 中国11万亿美元政府债券 市场 的投资者对这个世界第二大经济体从未如此悲观,一些投资者现在大举押注中国将出现与上世纪90年代日本类似的通货紧缩螺旋。 尽管中国 政府 宣布了一系列经济刺激措施,但 中国 10 年期主权债券收益率近几周 跌至历史最低水平,与美国同类债券收益率差距达到前所未有的 300 个基点。 此次暴跌导致中国债券收益率远低于2008年全球金融危机和新冠疫情期间的水平,凸显出人们日益担心政策制定者无法阻止中国陷入可能持续数十年的经济低迷。 如果债券市场预测正确,其影响将是深远的。长期通货紧缩将阻碍世界最大的经济增长引擎之一,给这个人口第二大国家的社会稳定带来新的压力,并加剧资本外流,去年年底,资本外流导致中国金融市场出现创纪录的外逃现象。 投资者对日本化 风险的重视程度可见一斑 。中国 10 家最大的券商均对邻国日本的失落几十年进行了研究。 以比较两国经济而闻名的经济学家 顾朝林表示,中国企业和智库曾与他联系,请他分享自己的观点。 高盛集团 本周表示,日本的案例为中国股市投资者提供了“宝贵的策略”,他们正因近十年来最糟糕的开局而感到不安。 虽然还不能确定中国是否会重现泡沫破灭后的日本,但 相似之处 却不容忽视。两国都遭遇了房地产崩盘、私人投资疲软、消费不振、债务负担过重以及人口迅速老龄化。即便是那些将中国经济管控得更紧作为乐观理由的投资者也担心,官员们没有采取更有力的行动。日本的一个明显教训是:当局越是拖延消除投资者、消费者和企业的悲观情绪,恢复经济增长就越困难。 “如果不加以纠正,这种恶性循环将会越来越严重,”  abrdn Plc 驻新加坡的投资总监 Xin-Yao Ng表示 ,该公司管理着全球 4940 亿美元的资产。“日本的教训有心理因素,这种情况持续的时间越长,企业和消费者信心就会越弱。” 进入 2025 年,中国市场已处于危险之中。随着基准 10 年期国 债收益率 首次跌破 1.6%,专家们 提出了 收益率接近于零的曾经不可想象的前景。今年前四个交易日,沪深 300 指数 下跌了 3.5%,而离岸人民币交易价格接近历史低点——促使当局本周抑制跌势。 中国债券收益率下跌 其 30 年期主权债券收益率已跌至日本 资料来源:彭博社 野村综合研究所 首席经济学家辜朝晖表示:“债券市场已经在告诉中国人:‘你们正陷入资产负债表衰退’。...

2万字全文: 段永平2025年1月5日浙大师生见面会问答实录

   来源:Web3 天空之城   天空之城 · 城主:    今天,段永平回母校浙大与师生进行了一场 长达 90 分钟的现场见面问答会。本城进行了书面整理,全场问答一共两万字左右。和感兴趣各位分享。   --   男主持人:   我们学生在日常学习方法以及未来人生规划上,可以做出哪些顺应时代变迁的措施,特别是应对 AI 变化时,我们可以持有哪些因时而变的想法。不知道段学长有没有什么建议?   段永平:   时代一直在变,工具也在变,但基本的东西仍然一样。学校主要是学习方法,有了 AI 只是能让你效率更高。当然,做论文的时候需要小心,不要发生不当行为。我觉得最主要的是,不论你是在学习方法还是创业上,每一个决策不能仅着眼于当下,而应该考虑到五年、十年甚至二十年后的影响。我的回答可能适用于许多问题,我们需要有长远的眼光。   男主持人: 感谢段学长的建议,同时也提醒了我们要适当使用 AI 工具,特别是在学术研究上要谨慎。   段永平: AI 工具在学术和研究中确实需要谨慎使用。   女主持人:   感谢段学长的回答。接下来,我们来看我手中的入场券上的第一个问题,这是来自我们经济学院的同学。很幸运他成为今天第一个提问的同学。他的提问是,段学长在投资时如何快速判断一家公司是否值得长期投资?   段永平:   基本上,我不会快速做出这样的判断。过去十多年,我关注的公司就那几个,这源自我对企业、生意、产品多年的理解。我没见过谁能很快下判断,包括巴菲特和芒格这样的投资高手,他们的节奏也很慢。他们并不怕错过一些机会,但最重要的是不要踩雷。有人可能会说,有钱不需要快赚,但我们缺钱就想快赚。我回应说,这可能正是你缺钱的原因,因为一直想着快速赚钱。其实我也想挣快钱,谁不想挣快钱?但是呢,秩序不可违很重要,就是你还是要踏踏实实做该做的事情。   女主持人:   好的,学长的意思就是要敢于尝试,并且眼光要放得远一些。   段永平:   敢于尝试这个太难了。你怎么个尝试法?就说呢,我不是一个不敢冒风险的人,但是呢,你要拼到你能够承受得起的风险。大家不能够说,哎呀,谁谁谁,你看他赌对了。那你说这个投资我最厉害的,那是二十分钟赚了二十多倍。人家说你干嘛呢?我在赌场呢。一百块钱赚了两千多块钱,我就走了。但是我可以重复这件事吗?我不能。那你说我当年投 网易  ( 88.25 ,...

加剧中国人口危机的 “无形之墙” - WSJ

尽管中国领导人一直在想办法提高国内人口出生率,中央政府还是认为有一类人总希望多生孩子,那就是农村人。但他们错了。 他们错了。研究表明,农民工对组建家庭有着严重顾虑。一个重要原因似乎是中国自 20 世纪 50 年代以来实行的户籍制度,该制度将城乡居民分为 “农业户口” 和“非农业户口”两种不同户籍,使农村劳动力很难带着孩子进城务工。 户籍制度被描述为一堵无形的墙,设立的目的是防止城市人口过度膨胀。该制度使农民工难以在中国最大的几个城市扎根,因为他们在获得本地医疗和教育等服务以及购买当地住房方面都受到了限制。 20 世纪 80 年代中国开始经济改革时,大多数中国人都生活在农村和乡镇。新的经济机遇让大批农村劳动力得以到城市里的工厂或建筑工地工作。但一定程度上由于户籍限制,这些农民工的子女通常留守在农村,由祖父母或其他家庭成员照顾。 许多留守儿童长大后也成为了农民工。他们中的很多人不愿接受生了孩子却要与孩子分开生活的难处。 一位 27 岁的女性从小和祖父母一起生活,而她的父母为了工作辗转于各个城市。她说,她不会急于结婚生子。 这名只愿透露自己姓 Zhao 的女性表示,她深刻理解留守儿童的自卑和羞怯。她的祖父母不识字,不得不在他们位于贵州省的村子里务农。在缺乏监督和照顾的情况下,Zhao 和她的妹妹勉强读完了职业学校。 Zhao 说,她不希望下一代像她一样。 尽管现在三分之二的中国人居住在城市,但只有 48% 的人拥有城市户口,意味着大约有 2.5 亿人无法享受到其务工城市提供的许多福利。根据中国人力资源和社会保障部的数据,2017 年,只有约 22% 的农民工在务工城市参加了养老金计划或拥有医疗保险。该部门尚未公布更新的数据。 一些人口学家认为,取消户籍制度可能是中国政府所能采取的为数不多有望大幅提高出生率的举措之一。随着人口减少和老龄化,提高出生率已成为一项优先事项。 长期以来一直主张改善中国农村人口状况的哈佛大学 (Harvard University) 社会学荣休教授怀默霆 (Martin Whyte) 说:“导致中国生育率下降的主要因素就是农民工,他们在这些大城市仍无法平等地获得资源。” 据上海财经大学的研究人员称,与限制较宽松的城市相比,在限制更严格的城市,农民工往往会将生育时间推迟至少一年。 加拿大维多利亚大学 (University of Victoria) ...

中国 AI 公司另辟蹊径快速追赶美国同行 - WSJ

尽管中国购买先进制程的芯片面临种种限制,但开发者们已经找到了变通途径。有迹象表明,中国初创企业追赶美国领先的 AI 模型的速度要比业内许多人预期的更快。 DeepSeek 是一家由中国最成功的对冲基金公司之一投资的初创公司,该公司在 11 月发布了最新大语言模型的预览版。该公司当时表示,该程序的能力优于 OpenAI 的推理模型 “o1”,后者于 9 月以预览版的形式发布。 近几周,其他中国公司也作出了类似的表态。由中国互联网巨头阿里巴巴 (Alibaba) 和腾讯 (Tencent) 支持的初创公司月之暗面 (Moonshot AI) 表示,该公司开发了一种专门研究数学的模型,其能力接近“o1”,与此同时,阿里巴巴表示,自己的一个实验性研究模型在数学方面优于 o1 模型的预览版。 这些公司尚未发表描述其模型的论文,而且由于目前还没有一个公认的 AI 模型能力测试标准,因此很难评估这些说法。尽管如此,一些美国专家表示,他们对此印象深刻。 “中国正在加速追赶,”OpenAI 前研究员、如今的 AI 创业者安德鲁 · 卡尔 (Andrew Carr) 说。他说,试图复制 OpenAI 推理模型的 DeepSeek 研究人员“在几个月内就搞定了,坦率地说,我的许多同事对此感到惊讶”。 其中一项用于比较的测试是美国数学邀请赛 (American Invitational Mathematics Examination, 简称 AIME),该竞赛是为最聪明的高中学生举办的数学挑战赛。 DeepSeek 表示,其模型在 AIME 测试中胜过了 OpenAI 的模型。《华尔街日报》(The Wall Street Journal)利用今年 AIME 的 15 道题进行的一项实验发现,OpenAI 的 “o1” 预览版模型得出答案的速度比 DeepSeek、月之暗面和阿里巴巴的实验模型更快。例如,一个假设的双人博弈问题需要用到策略来解字谜,OpenAI 的程序在 10 秒内给出了答案,而 DeepSeek 花了 2 分多钟。 在第一次尝试时就得到正确答案仍然非常了不起,因为文字题常常难倒 AI 程序。 自 2022 年以来,中国 AI 开发者面临美国对其获得全球最先进制程 AI 芯片的限制,包括来自芯片领导者 英伟达   (Nvidia) 的芯片。拜登 (Biden) 政府...

中国必须从日本 “失去的几十年” 吸取教训 - WSJ

中国股市在 2024 年结束了连续三年的下跌,但中国国债收益率跌至几十年来的最低点,表明市场预期未来经济增长将放缓。 去年,MSCI 中国指数上涨了 16%,这是该指数自 2020 年以来的首次年度上涨。大部分涨幅出现在 9 月下旬之后,当时中国政府表示将对经济提供更强有力的政策支持。自那以来,中国已推出了 1.4 万亿美元的一揽子计划,由中央政府承担地方政府的债务,并承诺今年将出台更多货币政策刺激措施。但鉴于投资者仍在等待更具体的政策,尤其是提振国内消费的政策,近期的股市涨势逐渐消退。 债券市场则呈现出一幅更为悲观的图景。中国国债收益率跌至几十年来的最低点,表明市场预期未来经济增长将放缓。30 年期中国国债收益率在年底跌至 1.93%,而 2018 年时为 4% 以上。 这种悲观看法并非捕风捉影。中国经济仍陷于通缩泥潭,生产者价格已连续 26 个月下降,去年 11 月同比下降 2.5%。消费者价格通胀勉强维持在零以上,同期仅上涨 0.2%。 这种令人不安的状况与曾经的日本有些相似。日本曾深陷数十年的通缩,直到近年来强有力的刺激措施最终将其拉出泥潭。事实上,30 年期中国国债收益率现已低于日本的 2.3%。与日本在上世纪 90 年代初房地产和股市泡沫破裂类似,中国目前的困境也是在 2021 年前后房地产泡沫破裂后出现的。 中国家庭和企业的财富与房地产投资捆绑在一起,他们的反应是减少支出,由此导致了需求不足和价格下跌。这反过来又给工资增长和企业利润率带来压力,进一步压低了价格。第二个特朗普任期即将到来的中美贸易战可能会使情况雪上加霜。 在面临通缩螺旋和经济前景不确定的情况下,仅仅降低利率不足以让中国经济重回高速增长轨道。日本的经验教训之一是,要走出通缩螺旋,需要强有力、势不可挡的刺激措施。到目前为止,中国似乎不愿意走到那一步。这意味着,债券收益率可能会保持在低位,而股市可能再次令投资者失望。押注日本国债价格下跌、利率上升的交易在日本被称为 “寡妇制造者” 交易,因为几十年来,许多投机者因此而损失惨重。 2024 年,中国股市和债市都迎来了丰收的一年。但今年,债券可能是更好的押注对象,而且在很长一段时间内都会如此,除非中国政府拿出切实可行的方案。