跳至主要内容

WIRED英伟达黄仁勋谈人工智能

科技界似乎对这家公司的技术产品趋之若鹜。其盈利能力令人瞩目。《WIRED》深入探讨了 Nvidia 的首席执行官,黄仁勋的独到见解。Nvidia CEO 黄仁勋正在推动 AI 革命


与黄仁勋的一场对话,仿佛需要预先打上警示标签。这位 Nvidia CEO 对 AI 的未来满怀激情,经过将近一个半小时的深入交流,我被深深地说服,相信未来定将是一片神经网络构建的乐土。我仿佛已经看到了一切:机器人的新时代、医学上的重大突破、自动驾驶汽车、能够记住对话的聊天机器人。而位于圣克拉拉的 Nvidia 公司园区的建筑,每一处我目光所及之地,都是三角形嵌套着三角形,这一设计帮助 Nvidia 打下了财富的基础。难怪我会如此沉迷,完全被黄仁勋的视角所吸引。


黄仁勋无疑是当下乃至未来一段时间内的关键人物。各大科技公司对 Nvidia 提供的超级计算 GPU 购之不竭。今天的 Nvidia 已非昔日之影,它曾是为 X 世代的视频游戏显卡供货商,通过高效渲染海量三角形,让图像生动起来。而今,Nvidia 的硬件引领我们走进了一个新时代,在这个时代中,我们与计算机对话,它们回应我们,而且,根据你谈话的技术人士所言,最终可能还会超越我们。


在我们的见面中,现年 61 岁的黄仁勋身穿他标志性的皮夹克,脚蹬一双极简风格的黑色运动鞋。他告诉我,他讨厌周一的早晨,因为他周日要工作一整天,到了正式工作周的开始就已经累了。但你绝对看不出他的疲惫。两天后,我参加了一个健康护理投资研讨会,场内聚满了生物技术的极客和西装革履的人士,但黄仁勋在台上依旧活力四射。


“这并非我惯常交流的圈子。生物学家和科学家们,他们总显得那么严肃,”黄仁勋手持麦克风,引得台下一片笑声。“我们谈论创造、改善和加速,而你们讲的是靶向和抑制。”他渐渐过渡到他的建议:“如果你打算在硅片上进行药物设计和发现,你很可能需要处理大量数据。如果你在人工智能计算上遇到困难,嘿,不妨给我们发封邮件。”


黄的策略始终是让 Nvidia 站在每一次重大科技浪潮的前线。2012 年,一群研究人员发布了名为 AlexNet 的革命性图像识别系统,该系统采用 GPU(而非传统的 CPU)来执行其代码,从而开启了深度学习的新纪元。面对这一趋势,黄迅速指示公司全力进军 AI 领域。2017 年,谷歌推出了一种名为 Transformer(即 ChatGPT 中的“T”)的创新神经网络架构,激发了当前的 AI 热潮,Nvidia 也因此得以向渴望此技术的公司提供专注 AI 的 GPU,占据了市场的有利位置。


目前,Nvidia 已占据超过 70% 的 AI 芯片市场销售份额,估值逼近 2 万亿美元。2023 年最后一个季度,其收入达到了 220 亿美元,同比增长了 265%。而且,过去一年其股价上涨了 231%。黄不仅凭借他的聪明才智,在他所做的每一件事上都取得了非凡成就,而且还拥有难以置信的好运——每个人都在探寻他的成功秘诀。


然而,没有人能够永远处于巅峰。黄现在正处于美中科技战的风口浪尖,同时也面临监管机构的严格审查。在 AI 芯片领域与黄竞争的不乏谷歌、亚马逊、Meta 和微软等行业巨头,它们拥有科技界最深厚的资金。去年 12 月底,半导体公司 AMD 推出了一款大型 AI 计算处理器,意在与 Nvidia 展开竞争。同时,众多初创公司也纷纷加入战局。根据 Pitchbook 研究公司的数据,仅去年第三季度,风险资本就向 AI 芯片领域投资了超过 8 亿美元。


因此,黄从未停歇。甚至在接受采访时,我惊讶地发现,他开始反问我,询问我的来历以及我是如何来到湾区的。


黄仁勋: 你和我都是斯坦福大学的校友。


Lauren Goode: 是的,我读的是新闻专业,而你则没有。


我其实很希望我也读过新闻专业。


那是为什么呢?


因为我非常钦佩 Adobe 的 CEO Shantanu Narayen,作为一个领导者和人,他说他一直梦想成为一名记者,因为他热爱讲故事。


看来能有效讲述企业故事是构建企业的重要部分。


没错,制定策略就是讲故事,建设企业文化也是讲故事。


你多次提到,并不是通过一份投资推介来介绍 Nvidia 的。


确实如此,关键在于讲好我们的故事。


因此,我想首先分享一位科技界同行向我提起的一个观点。他提到,尽管 Nvidia 比亚马逊只大一岁,但从很多方面来看,Nvidia 保持的初心和探索精神却似乎比亚马逊更加浓厚。你是怎样做到始终保持这种新鲜感和进取心的呢?


说实话,这确实是个非常棒的表达。我每天醒来都抱着首日上任的心态,因为我们总是在尝试前所未有的挑战。这条路上既充满希望也伴随着风险。就像刚才,我参加了一个会议,我们讨论的项目对公司来说是全新的尝试,而我们还在探索如何将它做到最好。


那么,这个新尝试是什么呢?


我们正着手构建一种全新模式的数据中心,我们将其命名为“AI 工厂”。按照现有的模式,数据中心里往往需要许多人共用一套计算机系统,将他们的数据存储于同一个庞大的设施中。而“AI 工厂”的构想则更接近于发电站的工作原理,这种设计思路十分独特。过去几年我们一直在致力于这个项目,现在则到了将其商品化的阶段。


你们准备给它取什么名字?


目前我们还没有确定最终的命名。但可以肯定的是,它将广泛出现在各个领域。无论是云服务提供商,还是我们自己,都将参与到它的建设中。从生物技术公司到零售、物流行业,乃至未来的汽车制造,每个行业都将拥有自己的“AI 工厂”,既有生产实体商品的工厂,也有致力于为汽车等产品赋能的 AI 创新工场。事实上,伊隆·马斯克就在我们讲话时已经在这方面取得了领先。他对未来工业企业的构想远超出了大众的想象。


你之前提到,你管理着一个扁平化的组织结构,直接向你汇报的高管有 30 到 40 人,这样做是为了更好地融入信息流。那么,最近有什么新兴的领域或技术让你觉得,“这可能是 Nvidia 未来的赌注”?


在今天这个时代,信息的传递已不再像古老时代那样从上而下一层层传递,当时我们还没有电子邮件、短信等即时通讯工具。如今,信息可以迅速自由流动。因此,采用传统的层级式信息流动模式已变得不再必要。一个平级的组织结构能让我们更快地适应变化,这一点至关重要,因为我们所处的技术领域正以前所未有的速度快速进步。


观察 Nvidia 技术的演进路径,你会发现,过去 10 年间,我们在 AI 领域取得的进步已经达到了惊人的百万倍速度增长,这远远超出了摩尔定律的预测。在这样一个指数级增长的世界里,我们期望信息能够横向快速传播,而非层层向下递交。


但我想问你,对你来说,什么是你的“罗马帝国”呢?换言之,现在有什么相当于变革性的 Transformer 论文的东西?你认为现在正在发生哪些事情,将会彻底改变未来呢?


我们正在关注几个领域。其中一个领域尚未有明确的定义,但它涉及到我们在基础机器人学方面的探索。如果机器可以创作文本和图像,那么它是否也能够创造动作呢?答案很有可能是肯定的。如果机器能够实现这一点,它就能理解意图并创造出一种广义的动作表达。因此,仿人机器人的发展似乎已经指日可待。


我认为,围绕状态空间模型(State-Space Models,SSM)的研究,能够让机器学习到长序列的模式而不会导致计算成本呈平方增长,这或许将是继 Transformer 之后的下一个重大突破。


这将如何改变我们的生活?能给出一个具体的例子吗?


想象一下,你能与计算机进行长时间的对话,而对话的上下文永远不会丢失。即使中途改变话题,稍后再回到之前的讨论,之前的上下文也能完整保留。这意味着,机器能够理解像人类基因组这样长链条的序列,并通过分析遗传代码来理解其含义。


距离这一天我们还有多远?


从过去到现在,从 AlexNet 到超越人类水平的 AlexNet,我们只用了约五年时间。机器人的基础模型可能就在不久的将来——我预计是明年的某个时刻。从那时起,未来五年内,我们将目睹一些令人震撼的成就。


哪个行业将最受益于广泛训练的机器人行为模型?


实际上,重工业是全球规模最大的行业之一。电子的移动相对简单,但原子的移动则要困难得多。无论是运输、物流,还是将重型物品从一个地方转移到另一个地方,发现新药——所有这些过程都涉及到对原子、分子、蛋白质的深入理解。这些都是 AI 尚未深入影响的巨大而重要的行业。


提及到摩尔定律,它现在还重要吗?


摩尔定律如今已经转变为更多关于系统集成的问题,而不仅仅是芯片的问题。它关乎多个芯片如何高效地相互连接。大约十到十五年前,我们开始尝试将计算机的组件解耦,以便能夠将多个芯片连接起来使用。


这正是你们在 2019 年收购以色列公司 Mellanox 的原因。Nvidia 当时表示,现代计算对数据中心提出了巨大需求,而 Mellanox 的网络技术能让加速计算变得更加高效。


确切无误。我们之所以收购 Mellanox,目的是通过扩展我们的芯片技术,让整个数据中心转变为一个超级计算器,从而推动现代 AI 超级计算机的发展。这反映了我们对摩尔定律终结的认识,并且意识到如果我们想继续推进计算能力的发展,就必须在数据中心的层面上进行扩展。我们重新审视了摩尔定律的提出背景,并得出结论:摩尔定律不应成为我们发展计算能力的桎梏。我们必须超越摩尔定律,寻找新的扩展途径。


Mellanox 的收购如今被认为是 Nvidia 极为明智的举措。最近,你们试图收购 Arm,这是世界上最重要的芯片知识产权公司之一,但最终因为监管机构的阻挠而未能成功。


那本来会是一件美好的事情!


虽然我不确定美国政府是否认同这一点,但不妨先不讨论这个。目前,你们在考虑收购时,有哪些具体的方向或领域?


这些大型系统的操作系统极其复杂。你们如何构建一个计算体系中的操作系统,来管理我们 GPU 内部数千万、数亿乃至十亿级别的微小处理器呢?这是一个巨大的挑战。如果外部有团队能够处理这一问题,我们可以选择与他们合作,或者采取更进一步的行动。


这么说来,对 Nvidia 而言,拥有一个操作系统并将其打造成一个更加完善的平台显得至关重要。


我们是一个以平台为核心的公司。


随着你们越来越多地将自己定位为一个平台,所面临的问题也随之增加。对于平台产出的各种问题,比如自动驾驶汽车的行为模式、医疗设备的误差范围,或是 AI 系统的偏差问题,你们是如何应对的?


虽然我们不专注于应用程序开发,但我们在为特定行业服务时,会尽可能地做到极致,同时又力求精简。例如,在医疗领域,我们不专长于药物研发,我们的强项在于计算。在汽车行业,我们的专长不在于制造汽车,而是开发擅长 AI 的汽车计算系统。对一家公司来说,要在所有这些领域都做到最好是非常困难的,但我们可以在 AI 计算领域达到卓越。


去年有报告称,一些客户等待了好几个月才能获得你们的 AI GPU。现在情况怎样了?


嗯,我看今年我们赶不上生产供应了,今年不行,明年恐怕也难。


目前要等多久?


我不清楚现在的等候期是多久。但今年对我们而言,也标志着新一代产品的起点。


你是说你们传说中的新 GPU,Blackwell 吗?


正是。我们即将推出的新一代 GPU,Blackwell 的性能表现非常惊人。这将是一次令人兴奋的飞跃。


这是否意味着客户将需要更少的 GPU?


这正是我们的目标。我们旨在极大降低训练模型的成本,从而使人们能够放心地扩展他们想要训练的模型规模。


Nvidia 对许多 AI 初创企业进行了投资。据去年报道,你们投资了超过 30 家。这些初创公司是否能在等待硬件的队列中获得优先权?


他们和所有人一样面临供应短缺的挑战,因为他们中的大多数使用的是公共云服务,所以他们必须自己与公共云服务供应商进行协商。他们能获得的优势是进入我们的 AI 技术平台,这意味着他们能够利用我们的工程技术和优化 AI 模型的特殊方法。我们为他们提高了效率。如果你的处理能力提高了五倍,那么实际上你就得到了五倍于原有的 GPU 性能。这就是我们能为他们提供的。


在这方面,你认为自己是行业的风向标吗?


不,我们之所以投资这些公司,是因为它们在各自的领域表现出色。能够投资于它们,对我们来说是一种荣幸,并非反过来。这些公司背后是一些世界上最为杰出的思想。他们不依赖于我们来肯定他们的价值。


随着机器学习越来越偏向于推断而非训练——也就是说,如果 AI 的工作变得不那么依赖于高强度计算,会发生什么情况?这会减少对你们 GPU 的需求吗?


我们对推断充满热情。实际上,我认为 Nvidia 目前的业务中,大概 40% 是推断,60% 是训练。这是一个积极的信号,因为它意味着 AI 正在逐渐实现其应用价值。如果我们的业务 90% 依赖于训练,只有 10% 是推断,那么可以认为 AI 还处在研究阶段。这是七八年前的情况。但如今,每当你向云端输入一个命令,它生成的东西——无论是视频、图像、2D 还是 3D 内容、文本或是图表——背后很可能是由 Nvidia GPU 加以支持的。


你认为对 Nvidia GPU 的需求会有减少的时刻吗,特别是在 AI 领域?


我认为我们现在正处于生成式 AI 革命的黎明期。目前,全球的计算工作大多仍依赖于检索机制。简单来说,当你在手机上操作时,它会向云端发出请求,以获取所需信息。系统可能会整合多个信息源,通过 Java 技术,在你精美的屏幕上向你展示结果。未来,计算技术将更依赖于 RAG(检索增强生成)。这意味着,系统在提供个性化内容时,将更多地依赖于生成技术,而不是简单的信息检索。


这种生成过程将由位于某处的 GPU 负责。因此,我相信我们正在步入以检索增强和生成技术为核心的计算革命新时代,生成式 AI 将成为几乎所有领域不可或缺的一部分。


近期的消息是,你们与美国政府合作,共同研发了符合出口管制要求、可以向中国出口的芯片。据我所知,这些芯片并非最尖端。你们与政府合作的程度如何,以确保能够继续在中国市场经营?


首先要明确的是,这涉及的是出口管制而非制裁。美国政府认为 Nvidia 的技术及其 AI 计算基础设施对国家安全至关重要,因此施加了出口管制。我们在首次实施时就已遵守这些规定——


那是在 2022 年 8 月。


没错。随后在 2023 年,美国政府对出口管制条款进行了扩充,这迫使我们再次对产品进行设计。我们已经完成了这一过程,并正在开发一系列符合当前出口管制规定的新产品。我们与政府部门保持着密切的合作,以确保我们的解决方案能够符合他们的预期。


对于这些限制可能促使中国发展出竞争性 AI 芯片的担忧程度如何?


中国已经拥有了可以竞争的技术和产品。


确实如此。虽然不是数据中心级别的,但华为去年推出的 Mate 60 智能手机搭载的自研 7 纳米芯片引起了市场的关注。


华为是一家卓越的公司。尽管他们受到所能获取的半导体加工技术的限制,但通过集成多个这样的芯片,他们依然能够构建出大型系统。


那么,你对中国在生成式 AI 领域追赶美国的整体担忧程度如何?


这一规定将削弱中国接触到尖端科技的能力,意味着西方国家——那些不受出口控制影响的国家,将能够使用更先进的技术。这些技术正以迅猛的速度发展。因此,这种限制显著增加了中国面临的成本。理论上,可以通过集成更多的芯片制造系统来解决问题,但这会提高每个芯片的成本。这或许是最简单的理解方式。


为了继续在中国销售而生产符合规定的芯片,这对你们与 TSMC——台湾半导体业的骄傲,有没有影响?


没有。规定是明确的,就像速度限制一样。


你说过多次,你的超级计算机里有 35,000 个部件,其中只有 8 个来自 TSMC。听到这,我以为这个比例很小。你是否在轻描淡写你对 TSMC 的依赖?


不,一点也不。


那你想通过这个强调什么?


我只是想强调,建造一个 AI 超级计算机,需要大量的其他组件。实际上,在我们的 AI 超级计算机项目中,几乎整个半导体产业都是我们的合作伙伴。我们已经与三星、SK 海力士、英特尔、AMD、博通、Marvell 等紧密合作。在我们的 AI 超级计算机项目中,我们的成功同时也是一大批公司成功的原因,我们对此感到非常欣慰。


你多久联系一次 TSMC 的 Morris Chang 或 Mark Liu?


经常。持续不断。


你们讨论什么内容?


最近我们讨论的是先进封装技术、未来几年的产能规划以及高级计算能力的需求。CoWoS[TSMC 的专利技术,能将芯片和内存模块集成到一个封装中]需要新的工厂、生产线和设备。因此,他们的支持至关重要。


我最近和一位专注于生成式 AI 的 CEO 谈话。我问 Nvidia 未来可能的竞争对手是谁,对方提到了谷歌的 TPU,还有人提到了 AMD。我想对你来说这并不简单就是一个非此即彼的问题,但你认为你最大的竞争对手是谁?谁让你夜不能寐?


劳伦,确实如此。TPU 团队表现卓越,实际上,他们做得非常好。AWS Trainium 和 AWS Inferentia 团队也都是出类拔萃的精英团队,表现优异。微软正在进行名为 Maia 的内部 ASIC 开发。中国的每家云服务提供商都在自主开发芯片,此外还有众多初创企业和现有半导体公司也在竞相开发高性能芯片。简而言之,大家都在研制芯片。


这本不应让我夜难以入眠。我得确保自己工作到极度疲惫,夜里任何事都不会干扰我的休息。这是我唯一能把握的。


但真正让我激动地起床的是我们持续的承诺:在全球,我们是唯一能与所有人合作,在数据中心级别和全栈领域建造 AI 超级计算机的公司。


我有一些私人问题想向你提问。


[ 黄对公关代表说:] 她做足了功课。而且,我确实很享受我们的谈话。


我也很高兴。我也是这么想的。我其实还想——


顺便说一下,当 Morris 或是我认识多年的朋友请我主持访谈时,目的并不是让我坐下来提问题。我们之间是在进行一场对话。我们需要考虑观众可能感兴趣的内容,用心去感受。


因此,我向 ChatGPT 提了个关于你的问题。我想知道你是否有纹身,因为我正打算建议我们下次见面时给你纹一个。


如果你纹,我就跟着纹。


我已经有一个了,但我还想再加一个。


我也有一个纹身。


是的。这是我从 ChatGPT 那儿了解到的。据说当公司股价达到 100 美元时,你纹了一个公司标志的纹身。但后来你表示,因为疼痛超出预期,可能不会再纹了。它还说你当时哭了,是这样吗?


确实有那么一点。我建议纹身前可以喝点威士忌,或者吃些 Advil 来缓解疼痛。而且,我觉得女性对疼痛的忍受能力更强,比如我的女儿就有一个相当大的纹身。


长篇深阅

深入探讨和前沿特稿,让你在每个周日都能变得更加聪慧和锐利。


想来个纹身?我觉得三角形不错,毕竟,谁会不喜欢三角形呢?它们是几何学中的完美象征。


或者,不如试试 Nvidia 大楼的剪影吧!它完全由三角形构成。


这可是份真挚的承诺。我想知道,你个人多久使用一次 ChatGPT、Bard 或类似工具?


我常用 Perplexity,ChatGPT 也很不错。几乎每天我都会用到它们。


都用来做些什么?


研究。比如说,在计算机辅助的药物发现领域。你可能对计算机辅助药物发现的最新进展感兴趣。因此,你需要设定一个大的研究框架,然后在这个框架下,逐渐深入提问。这正是我喜欢大语言模型的地方。


听说你过去常举重,现在还练吗?


已经不了。我现在力争每天完成 40 个俯卧撑,这不会花费我太多时间。说到锻炼,我可是个懒人。刷牙时顺便做些深蹲。


最近你在 Acquired 播客上的一条评论火了。主持人问,如果你现在三十岁,考虑创业,你会选择什么项目?而你的回答是,你根本不会考虑创业。对这个答案,你有补充的想法吗?


这个问题可以有两种解读,我选择了这样回答:如果我当时知道现在我所知道的一切,我可能会因为害怕而不敢迈出那一步。知道太多,就会让人畏缩不前。


创业,似乎需要一点儿“妄想”。


这正是无知给予的优势。你不知道前路有多艰难,也不会预见到等待你的痛苦与挑战。现在的我,遇到充满信心、满口轻松应对的创业者时,我会给予他们支持,但心里清楚,事情往往不会像他们想象的那么简单。


在管理 Nvidia 的过程中,你认为自己做出的最大牺牲是什么?


那就是和其他创业者一样的牺牲。你得付出异常艰苦的努力。很长一段时间内,几乎没人看好你。唯有自己坚信未来的胜利。面对不安、脆弱甚至有时的羞辱,这些都是真实的挑战。虽然人们不常提及,但每一位 CEO 和创业者,在遭遇公开失败时,都会感到尴尬,他们也和我们每一个人一样,有着共同的人性。


当有人问我,用你今天所拥有的一切去回看,你还会选择创立 Nvidia 吗?我的回答是:“绝对不是。”但如果早知道 Nvidia 会成长为现在的模样,我还会创立这家公司吗?别开玩笑了,为此我愿意付出一切。


更新于 2024 年 2 月 26 日,下午 5:05 ET:本文已根据 Nvidia 提供的最新信息进行了更新。黄仁勋此前指出,Nvidia 的 AI 计算业务由 70% 的推断和 30% 的训练构成。实际正确的比例是 40% 的推断和 60% 的训练。

评论

此博客中的热门博文

中国 AI 初创公司 DeepSeek 是如何与硅谷巨头竞争的

纽约时报: DeepSeek 的工程师说,他们的系统只需要约 2000 块美国芯片制造商英伟达生产的专用计算机芯片,而美国大公司的 AI 系统需要多达 1.6 万块芯片。 Marlena Sloss/Bloomberg 圣诞节的第二天,一家名为深度求索 (DeepSeek) 的中国小型初创公司发布了一个新的人工智能系统,其功能可与 OpenAI 和谷歌等公司的尖端聊天机器人相媲美。 能做到这点本已是一个里程碑。但这个名为 DeepSeek-V3 的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的 研究论文 中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。 这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。 但 DeepSeek 大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。 据美国人工智能公司一直使用的行业基准测试,DeepSeek 聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。 而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约 600 万美元的原始计算能力就训练了新模型,不到科技巨头 Meta 训练其最新人工智能模型所耗资金的十分之一。 “有 600 万美元资金的公司在数量上远远多于有 1 亿美元或 10 亿美元资金的公司,” 风险投资公司 Page One Ventures 的投资人克里斯 · 尼科尔森说道,他主要投资人工智能技术。 自从 OpenAI 2022 年发布了 ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。 世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达 1.6 万个芯片,甚至更多。但 DeepSeek 的工程师却说,他们只用了约 2000 个英伟达生产的专用芯片。 中国进口芯片受到限制,迫使 DeepSe...

揭秘DeepSeek:一个更极致的中国技术理想主义故事

  做贡献者,而非搭便车者。 文 | 于丽丽 编辑 | 刘旌 中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。 一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。 在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。 弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。 这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA( 一种新的多头潜在注意力机制 )架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。 在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。” 在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。 多位行业人士告诉我们, 这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。” 而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见: 美国更擅长从0-1的技...

付鹏11月24日在HSBC内部演讲速记

《2024年年终回顾和2025年展望——对冲风险VS软着陆》   上篇 正值年底,虽然刚才汇丰一直强调大家不录音不录像,但大概率你挡不住。我在这儿讲话会谨慎一些,非常小心谨慎,大概率会有人透露出去,放到YouTube上,基本上所有见我都说付总我在YouTube上看过你的视频,我说那都是盗版的,靠盗版发财的也不少。 今天和大家分享的内容基本上都是官方的,回顾会多一点,展望不多,因为这个月展望完了之后下个月怎么办?有些话对我来讲我倒觉得很简单,本质上原来我们是做Hedge Fund出身,所以我们的逻辑框架整体具有极强的延续性,不是说今年去讨论,或者说明年去讨论。 惯性思维从2016年开始,我一直在跟大家强调这个世界已经完全不一样了。当然经历过过去的几年时间,我相信在座各位应该对这番话的理解变得越发深刻。 2016年实际上是美国特朗普的第一次大选,我有一个特点,我的特征是如果我觉得什么地方有投资机会,我可能第一时间去一线调研,我不喜欢看YouTube,我也不喜欢在网上扒。当然你会说,现在ChatGPT很强大了,人工智能好像能帮你解决很多问题,但你们有没有想过,可能广泛流传或者广泛传播的很多信息是错的。这一点在2012年当时我从日本做完调研回来之后,我的感悟是最深的。 当然去日本有一个重要的人物,名字叫本森特,很快大家就会非常熟悉他的,目前来讲应该是特朗普政府提名的美国财长。本森特原来是索罗斯基金实际掌控人,因为索大爷已经年龄很大了,去年的时候才刚刚把基金的业务交给他儿子亚历山大,但在这之前,最主要的几场战役本质上来讲都是本森特在主导。 2012年当时我从北京去香港约朋友们吃饭的饭局上,当时斯索罗斯基金在香港办公室跟我说,本森特从这儿去了日本。我说OK。我经常说一句话“站在巨人的肩膀上看问题。” 当然你知道,网民们最可怕的地方是巴菲特“SB”、索罗斯“SB”,我最“牛逼”。你要记住,他们的所有行为一定有很大的变化,很多人可能都不知道,巴菲特第一次去是2011年,我们正在讲福岛核电站泄漏,核废水污染以后海鲜不能吃的时候,一个80多岁的老头顶着核辐射泄漏去日本吃海鲜了,当然他去日本干吗,这其实很关键。 之后我们跑到日本做完调研回来之后那几年,我陆陆续续跟很多人讲,日本正在发生变化,日本的利率结构都会随之变化的,当然包括日本的证券市场。今年日本股市终于走出这35年了,创下...

如何从中国走线(润到)美国

经济学人: 他们来美国的原因各不相同。有些人寻求经济机会。其他人则对统治感到失望。许多人在网上看到其他中国移民穿越哥伦比亚和巴拿马之间无法无天的丛林地带,寻求更好的生活。数以万计的中国公民前往南美,这是前往美国的危险旅程的第一步。这条路线非常受欢迎,以至于它获得了一个中文昵称:走线,即走线。 过去两年,中国移民一直是穿越美国南部边境增长最快的群体。2023 年,美国边境巡逻队遇到了 3.7 万多名中国移民,高于 2022 年的 3,813 人和 2021 年的 689 人。今年前八个月又有 2.1 万人入境。他们仍然只是 2023 年试图越境的 200 万移民中的一小部分。但由于美国和中国陷入了经济、意识形态和地缘战略竞争,中国移民已成为政治焦点。 唐纳德·特朗普说,来自中国的新移民大多是适龄参军的男性。“他们是想在我们国家组建一支小军队吗?”他问道。其他共和党政客称中国移民是潜在的间谍。卡马拉·哈里斯和民主党人没有那么危言耸听,但他们也担心边境问题。在总统竞选中,移民是首要关注的问题,而中国是一个方便的反面人物,因此几乎没有人努力去了解是什么推动了这种人口流动,以及这对每个国家意味着什么。 《经济学人》花了三个月时间在哥伦比亚、墨西哥和美国进行报道。我们采访了数十名移民,以及走私者、边防警卫和专家。一些人允许我们追踪他们的移民旅程。一些人经过数周的乘船、乘公共汽车、步行和乘飞机的旅行才抵达美国。其他人则在途中失去了一切。大多数人被更美好未来的承诺所吸引,并遵循了试图利用美国不完善的移民制度的策略。但他们的旅程也揭示了中国的情况,压制性统治和日益恶化的经济萎靡不振正在将人们推向远离中国的道路。 第一部分 内科克利 对于许多中国移民来说,美洲的第一站是厄瓜多尔,直到最近,厄瓜多尔才向他们提供免签证入境。但他们很快就搬到了哥伦比亚。在那里,我们遇到了黄女士,一位 40 多岁、身穿亮粉色连衣裙的女性。她已经打破了出生地——中国西南部贵州省的一个贫穷村庄——的保守规范。村里大多数妇女终生务农和养育孩子。然而,黄女士离开家乡去了大城市,养育了两个孩子,并与嗜赌成性的丈夫离婚。她来到了加勒比海边缘的海滨小镇内科克利,即将进入哥伦比亚和巴拿马之间危险的达连峡丛林。 她两个 20 多岁的妹妹也来了。她们之前都没有离开过中国。黄女士说,她们对未来的危险知之甚少,但梦想着到达美国。自疫...

抖音平台八种算法机制的底层逻辑,不要被算法操控,要了解算法的机制

抖音是算法机制最复杂的平台之一。平台内的每一条内容、每一个短视频,背后都是由算法支配的。同时,抖音算法还影响着我们短视频的制作和发布。这篇文章为大家总结了抖音平台的八种算法机制,助力大家做好运营工作。 抖音是算法机制最复杂的平台之一。平台内的每一条内容、每一个短视频,背后都是由算法支配的。同时,抖音算法还影响着我们短视频的制作和发布。 对于做抖音短视频的运营者来说,想要高效获取到流量,摸清抖音算法至关重要! 这篇文章为大家总结了抖音平台的八种算法机制,助力大家做好运营工作。 一、流量池算法机制 抖 音的流量池是一个庞大的内容分发网络 ,是通过一系列复杂的算法和机制,将不同的内容推荐给不同的用户群体。 具体来讲: ·   抖音系统会将创作者发布的视频,先投放在一个小范围数量的用户人群中; ·   根据短视频的点击量、播放量、完播率、互动率等数据进行评估; ·   根据短视频作品的表现数据,来决定系统是否会将短视频推荐给更大用户人群的流量池。 创作者发布的短视频都会享受到抖音官方提供的推荐流量,但流量推荐量的数据范围是不一定的,这就是流量池。 抖音流量池的推荐规则如下: 种子流量池 创作者上传完短视频,视频在经过审核之后会先进入到种子流量池中,此时的流量分发人数只有数百人。如果视频在种子流量池中有很好的完播率,那么接下来才会被推荐给更多人;如果各项数据未达到要求,则会减少推荐量。 多级流量池 抖音的流量池是分级的,每一级都有不同的用户规模和推荐要求。 种子流量池中的优质视频才会获得叠加推荐,此时会进入到更高一级的初级流量池中,能够获得好的完播率和互动量的视频会紧接着推荐到中级流量池。以此类推,再到高级流量池。 这种多级流量池的设计,让优质的短视频内容可以获得更多的曝光。 延后曝光 偶尔也会出现这样一种情况,视频发布后的几天或者几周内,数据效果都不是很好,但是某天就突然火了,这就是我们说的 “延后曝光”,是抖音系统考虑了时间效应后的展示效果。 可能是因为用户翻看之前的视频时,带动了视频的播放量,抖音重新将这条视频推荐到更大的流量池中,从而获得新的曝光。 对于创作者来说,想要突破抖音冷启动流量池,就需要密切关注下面几个指标: 二、标签算法机制 无论是创作者,还是用户,都会被抖音系统打上不同类型的标签。 · ...

疯狂的幻方:一家隐形AI巨头的大模型之路

暗涌Waves 文  | 于丽丽 在蜂拥而至的大模型团战中,幻方大概是最异类的一个。 这是一场注定是少数人的游戏,很多创业公司在大厂入局后开始调整方向甚至萌生退意,而这家量化基金却孤绝前行。 5月,幻方把下场做大模型的独立新组织,命名为“深度求索”,并强调将专注于做真正人类级别的人工智能。他们的目标,不只是复刻ChatGPT,还要去研究和揭秘通用人工智能(AGI)的更多未知之谜。 不仅如此,在这个被认为格外依赖稀缺人才的赛道,幻方还试图去集结一批有执念的人,并祭出了他们认为的最大武器:一群人的好奇心。 在量化领域,幻方是一家抵达过千亿规模的“顶级基金”,但它被这波AI新浪潮集中关注到,其实还颇具戏剧性。 当国内云厂商高性能GPU芯片缺货成为限制中国生成式AI诞生的最直接因素时,据《财经十一人》报道, 国内拥有超过1万枚GPU的企业不超过5家。而除几家头部大厂外,还包括一家名为幻方的量化基金公司。通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛。 其实,这家很少被置于人工智能视野打量的公司,早已是一家隐秘的AI巨头:2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。 这意味着,单从算力看,幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。 只是大模型对算力、算法和数据都有强依赖,所以起步就需要5000万美金,训练一次需要上千万美金,非百亿美金公司其实很难持续跟进。各种艰难之下,幻方却很乐观,创始人梁文锋告诉我们:“关键是我们想做这件事,能做这件事,那我们就是最合适的人选之一。” 这种谜之乐观,首先来自幻方的独特成长路径。 量化投资是一个源自美国的舶来品,这使得几乎所有中国的头部量化基金创始班底,都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索着长大。 2021年,成立仅六年的幻方,抵达千亿规模,并被称为“量化四大天王”之一。 以局外人杀入的成长路径,让幻方始终像一个搅局者。多位行业人士向我们表示,幻方“无论研发体系、产品还是销售,都始终在用一种崭新的方式,切入到这个行业中来。” 一家头部量化基金创始人认为,这些年的幻方,始终“没有按照某种约定成俗的道路在走”,而是...

图解美国对华及对全球其他国家关税政策影响-wsj

候任总统特朗普 (Donald Trump) 在他的第一个任期内把对华加征关税搞成了他的标志性政策。之后上台的总统拜登 (Joe Biden) 基本上保留了这些关税,并指示提高对半导体和电动汽车等产品的关税。 根据 Trade Partnership Worldwide 对截至 9 月份的美国人口普查局 (U.S. Census Bureau) 数据的分析,自特朗普在 2018 年开始对中国上调关税以来,从中国进口的商品的平均实际关税税率已从约 3% 跃升至约 11%。为商业团体提供数据和研究的 TPW 表示,美国从所有国家进口商品的平均实际关税税率已从逾 1% 升至逾 2%。 现在,特朗普准备再次加大对中国和其他贸易伙伴的压力,他最近提议对所有来自中国的产品加征 10% 的关税,对来自墨西哥和加拿大的进口商品加征 25% 的关税。这可能会颠覆他在 2020 年签署的《美墨加协定》(USMCA),该协定在很大程度上维持了这三个北美国家之间的免税贸易。 在关税提高的情况下,中国商品在美国进口中所占份额已经下降,而全球其他国家在美国进口中所占份额有所上升。尽管如此,中国仍是美国的第二大商品供应国。 关税是对跨境商品征收的税。在适用关税的时候,美国进口商通常在外国商品抵达入境口岸时缴纳关税,这一过程由美国海关边境保护局 (U.S. Customs and Border Protection) 负责。美国主要将关税作为保护某些行业的工具,以及对其他国家贸易壁垒的回应手段。关税也是美国政府的一个收入来源。 特朗普过渡团队发言人 Brian Hughes 表示:“特朗普总统已承诺实施关税政策,保护美国制造商和劳动者免受外国公司和外国市场不公平做法的伤害。” 拜登在上周敦促特朗普重新考虑对墨西哥和加拿大征收关税的威胁,警告称这可能会损害美国与这两个最亲密盟友的关系。白宫没有回应置评请求。 平均实际关税税率的计算方法是用关税收入占进口商品价值的百分比来衡量。例如,2023 年美国从印度购买了价值约 840 亿美元的商品,进口商为这些商品支付了约 20 亿美元的关税,鉴于此,来自印度的进口商品的平均实际关税税率约为 2.4%。 经济学家使用这一指标来衡量关税如何应用于大类商品或原产国,并根据进口价值和关税税率的构成进行加权。 即使关税政策没有改变,随着进口商品结构的变化,这一税率也会...

关于完善药品价格形成机制的意见

 关于完善药品价格形成机制的意见 (征求意见稿) 党的十八大以来,以市场为主导的药品价格机制改革持续深化,以药品集中带量采购、医保目录谈判为切入口的医保基金战略性购买持续发力,增进市场公平竞争,有力引导药品价格趋于合理,有效推动医药领域发展活力进发,有序促进医药行业发展方式转变。为更好发挥市场机制作用,支持医药高质量创新发展,规范药品价格秩序,现就完善药品价格形成机制提出如下意见。 一、总体要求 以习近平新时代中国特色社会主义思想为指导,着力构建药品领域全国统一大市场,创造更加公平、更有活力的市场环境,健全完善以市场为主导、以临床价值为导向、以有效竞争为基础的药品价格形成机制,引导医保药品价格运行在合理区间,规范非医保药品自主定价,大力支持高质量创新药发展,充分发挥医保基金战略性购买作用,更好发挥商业健康保险多元支付功能,推进药品价格秩序治理,实现有效市场和有为政府更好结合,保障人民群众获得质优价宜药品。到2027年、药品价格形成机制成熟定型,推动医药行业高质量发展取得新成效。 二、发挥市场决定性作用,支持创新药高质量发展 (-)设立创新药产业招资基金。鼓励商业保险公司设立创新药产业投资基金,或明确现有投资基金对创新药产业进行重点投资,发挥保险资金期限长、稳定性优势,减低创新药产业融资成本,支持医药创新发展。涉创新药权益类投资规模达到上季度末总资产5%的,视为创新支持型商业保险公司,可获得税收政策优惠、大病保险承办、城市定制型商业健康保险合作、探索允许职工医保个人账户购买其覆盖高水平创新药的保险产品等支持政策,并在有关商保产品结算支付一站式清分、医保商保同步结算、医保商保数据共享等方面给子支持。完善商业保险权益投资监管制度,督促指 导商业保险公司优化长周期考核评估机制,为创新药高质量发展提供稳定的长期投资。 (二)优化新上市药品首发挂网服务和价格机制。试行以药学和临床价值为基础的新上市药品自评制度,医药企业实事求是做好自评和自主定价,公开接受社会监督和同行评议。做好首发挂网服务,支持创新药加快进入临床。综合自评结果和临床获益因素,分层次落实价格政策,积极支持满足临床急需的高水平创新药在上市初期获得与高投入、高风险相符的收益回报,在一定期限内保持价格相对稳定;鼓励引导改良进步药品价格体现与临床获益相称的价值;规范引导其他新上市药品和仿制药参考同通用名药品、同作...

中国 AI 公司另辟蹊径快速追赶美国同行 - WSJ

尽管中国购买先进制程的芯片面临种种限制,但开发者们已经找到了变通途径。有迹象表明,中国初创企业追赶美国领先的 AI 模型的速度要比业内许多人预期的更快。 DeepSeek 是一家由中国最成功的对冲基金公司之一投资的初创公司,该公司在 11 月发布了最新大语言模型的预览版。该公司当时表示,该程序的能力优于 OpenAI 的推理模型 “o1”,后者于 9 月以预览版的形式发布。 近几周,其他中国公司也作出了类似的表态。由中国互联网巨头阿里巴巴 (Alibaba) 和腾讯 (Tencent) 支持的初创公司月之暗面 (Moonshot AI) 表示,该公司开发了一种专门研究数学的模型,其能力接近“o1”,与此同时,阿里巴巴表示,自己的一个实验性研究模型在数学方面优于 o1 模型的预览版。 这些公司尚未发表描述其模型的论文,而且由于目前还没有一个公认的 AI 模型能力测试标准,因此很难评估这些说法。尽管如此,一些美国专家表示,他们对此印象深刻。 “中国正在加速追赶,”OpenAI 前研究员、如今的 AI 创业者安德鲁 · 卡尔 (Andrew Carr) 说。他说,试图复制 OpenAI 推理模型的 DeepSeek 研究人员“在几个月内就搞定了,坦率地说,我的许多同事对此感到惊讶”。 其中一项用于比较的测试是美国数学邀请赛 (American Invitational Mathematics Examination, 简称 AIME),该竞赛是为最聪明的高中学生举办的数学挑战赛。 DeepSeek 表示,其模型在 AIME 测试中胜过了 OpenAI 的模型。《华尔街日报》(The Wall Street Journal)利用今年 AIME 的 15 道题进行的一项实验发现,OpenAI 的 “o1” 预览版模型得出答案的速度比 DeepSeek、月之暗面和阿里巴巴的实验模型更快。例如,一个假设的双人博弈问题需要用到策略来解字谜,OpenAI 的程序在 10 秒内给出了答案,而 DeepSeek 花了 2 分多钟。 在第一次尝试时就得到正确答案仍然非常了不起,因为文字题常常难倒 AI 程序。 自 2022 年以来,中国 AI 开发者面临美国对其获得全球最先进制程 AI 芯片的限制,包括来自芯片领导者 英伟达   (Nvidia) 的芯片。拜登 (Biden) 政府...

特朗普就职演讲中英文全文

谢谢,谢谢大家,非常感谢你们。非常非常感谢。副总统万斯,众议院议长约翰逊,参议员图恩,美国首席大法官罗伯茨,以及美国最高法院的大法官们。 克林顿总统、布什总统、奥巴马总统、拜登总统、哈里斯副总统,以及我的各位同胞, 美国的黄金时代从现在开始 。 从今天起,我们的国家将再次繁荣,并在全世界受到尊重。我们将成为每个国家的羡慕对象,不再让自己受到剥削。 在特朗普政府的每一天,我都会把美国放在第一位 。 我们的主权将被夺回。我们的安全将得到恢复。正义的天平将重新平衡。司法部和我们政府的恶劣、暴力和不公正的武器化将结束。 我们的首要任务是创造一个骄傲、繁荣和自由的国家。美国将很快变得更伟大、更强大,并且比以往任何时候都更加卓越。 我自信和乐观地回到总统职位上,我们正处于一个令人兴奋的新国家成功时代的开始。一股变革的浪潮正在席卷整个国家,阳光洒遍全世界,美国有机会前所未有地抓住这一机遇。 但是首先,我们必须诚实面对我们面临的挑战。虽然挑战很多,但它们将被美国当前所见证的这一伟大势头摧毁。 今天我们聚集在一起时,我们的政府正面临一场信任危机。多年来,一个激进且腐败的体制从我们的公民手中攫取权力和财富,而我们社会的支柱却破碎不堪,似乎完全失修。 我们现在的政府连国内的简单危机都无法应对,同时还在海外接二连三地陷入灾难性事件。 它未能保护我们辉煌、守法的美国公民,却为危险的罪犯提供庇护和保护,这些罪犯许多来自监狱和精神机构,他们非法进入我们的国家。我们有一个政府,无限制地资助外国边界的防御,却拒绝保护美国的边界,或者,更重要的是,保护自己的人民。 我们的国家在紧急情况下已经无法提供基本服务,这一点最近由北卡罗来纳州的优秀人民证明了。他们受到如此糟糕的对待。而其他几个州在几个月前发生飓风后仍在遭受痛苦。 或者更近的是洛杉矶,我们正在目睹大火仍在无情地燃烧。从几周前开始,它们毫无防备地横扫房屋和社区,甚至影响到我们国家一些最富有和最有权势的人,其中一些人现在就坐在这里。他们已经无家可归了。这很有趣。 但是我们不能让这种情况发生。每个人都无能为力。这将会改变。我们的公共卫生系统在灾难时无法提供帮助,却在其上花费了比世界上任何国家都要多的钱。 我们的教育系统则教导我们的孩子为自己感到羞愧,在许多情况下,教他们仇恨我们的国家,尽管我们试图如此绝望地向他们提供爱。所有这一切将从今天开始改变,而且...