疯狂的幻方：一家隐形AI巨头的大模型之路

暗涌Waves

文 |于丽丽

在蜂拥而至的大模型团战中，幻方大概是最异类的一个。

这是一场注定是少数人的游戏，很多创业公司在大厂入局后开始调整方向甚至萌生退意，而这家量化基金却孤绝前行。

5月，幻方把下场做大模型的独立新组织，命名为“深度求索”，并强调将专注于做真正人类级别的人工智能。他们的目标，不只是复刻ChatGPT，还要去研究和揭秘通用人工智能（AGI）的更多未知之谜。

不仅如此，在这个被认为格外依赖稀缺人才的赛道，幻方还试图去集结一批有执念的人，并祭出了他们认为的最大武器：一群人的好奇心。

在量化领域，幻方是一家抵达过千亿规模的“顶级基金”，但它被这波AI新浪潮集中关注到，其实还颇具戏剧性。

当国内云厂商高性能GPU芯片缺货成为限制中国生成式AI诞生的最直接因素时，据《财经十一人》报道，国内拥有超过1万枚GPU的企业不超过5家。而除几家头部大厂外，还包括一家名为幻方的量化基金公司。通常认为，1万枚英伟达A100芯片是做自训大模型的算力门槛。

其实，这家很少被置于人工智能视野打量的公司，早已是一家隐秘的AI巨头：2019年，幻方量化成立AI公司，其自研的深度学习训练平台“萤火一号”总投资近2亿元，搭载了1100块GPU；两年后，“萤火二号”的投入增加到10亿元，搭载了约1万张英伟达A100显卡。

这意味着，单从算力看，幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。

只是大模型对算力、算法和数据都有强依赖，所以起步就需要5000万美金，训练一次需要上千万美金，非百亿美金公司其实很难持续跟进。各种艰难之下，幻方却很乐观，创始人梁文锋告诉我们：“关键是我们想做这件事，能做这件事，那我们就是最合适的人选之一。”

这种谜之乐观，首先来自幻方的独特成长路径。

量化投资是一个源自美国的舶来品，这使得几乎所有中国的头部量化基金创始班底，都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外：它完全是本土班底起家，独自摸索着长大。

2021年，成立仅六年的幻方，抵达千亿规模，并被称为“量化四大天王”之一。

以局外人杀入的成长路径,让幻方始终像一个搅局者。多位行业人士向我们表示，幻方“无论研发体系、产品还是销售，都始终在用一种崭新的方式，切入到这个行业中来。”

一家头部量化基金创始人认为，这些年的幻方，始终“没有按照某种约定成俗的道路在走”，而是“按照他们想要的方式 ” ，即便是有点离经叛道或者争议，“也敢大大方方说出来，然后按照自己的想法去做”。

关于幻方的成长奥秘，幻方内部将之归结为“选用了一批没有经验但有潜能的人，以及有一个可以让创新发生的组织架构和企业文化”，他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。

而更关键的秘密，或许来自幻方的创始人梁文锋。

还在浙江大学攻读人工智能时，梁文锋就无比笃信“人工智能一定会改变世界”，而2008年，这还是一个不被认同的执念。

毕业后，他没有像周围人一样去大厂做个程序员，而是躲在成都的廉价出租屋里，不停接受进入诸多场景中尝试的挫败，最终切入了最复杂场景之一的金融，并成立了幻方。

一个有趣的细节是，在最早几年，曾有个同样疯癫的、在深圳城中村做着“不靠谱”飞行器的朋友拉他入伙。后来这个朋友做成了一个千亿美金的公司，名叫：大疆。

也因此，在做大模型必然涉及的钱、人、算力等话题外，我们还和幻方创始人梁文锋特别聊了聊，怎样的组织架构可以让创新发生，以及人的疯狂可以持续多久。

创业十余年，这是这位鲜少露面的“技术宅”型创始人第一次公开受访。

巧合的是，4月11日，幻方在发布做大模型公告时，也引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话：“务必要疯狂地怀抱雄心，且还要疯狂地真诚。”

以下为对话：

做研究，做探索

>“做最重要、最困难的事”

「暗涌」：前不久，幻方发公告决定下场做大模型，一家量化基金为什么要做这样一件事？

梁文锋：我们做大模型，其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。

幻方的主要班底里，很多人是做人工智能的。当时我们尝试了很多场景，最终切入了足够复杂的金融，而通用人工智能可能是下一个最难的事之一，所以对我们来说，这是一个怎么做的问题，而不是为什么做的问题。

「暗涌」：你们要自训一个大模型，还是某个垂直行业——比如金融相关的大模型？

梁文锋：我们要做的是通用人工智能，也就是AGI。语言大模型可能是通往AGI的必经之路，并且初步具备了AGI的特征，所以我们会从这里开始，后边也会有视觉等。

「暗涌」：因为大厂的入局，很多创业型公司都放弃了只做通用型大模型的大方向。

梁文锋：我们不会过早设计基于模型的一些应用，会专注在大模型上。

「暗涌」：很多人认为，创业公司在大厂形成共识后下场，已经不是一个好的时间点。

梁文锋：现在看起来，无论大厂，还是创业公司，都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路，又都基于公开论文和代码，最晚明年，大厂和创业公司都会把自己的大语言模型做出来。

大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上，这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求，所以它又是更适合灵活的创业型组织的。从长期看，大模型应用门槛会越来越低，初创公司在未来20年任何时候下场，也都有机会。

我们的目标也很明确，就是不做垂类和应用，而是做研究，做探索。

「暗涌」：为什么你的定义是“做研究、做探索”？

梁文锋：一种好奇心驱动。从远处说，我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言，人的思维可能就是一个语言的过程。你以为你在思考，其实可能是你在脑子里编织语言。这意味着，在语言大模型上可能诞生出类人的人工智能（AGI）。

从近处说，GPT4还有很多待解之谜。我们去复刻的同时，也会做研究揭秘。

「暗涌」：但研究意味着要付出更大的成本。

梁文锋：只做复刻的话，可以在公开论文或开源代码基础上，只需训练很少次数，甚至只需finetune（微调）一下，成本很低。而做研究，要做各种实验和对比，需要更多算力，对人员要求也更高，所以成本更高。

「暗涌」：那研究经费哪里来？

梁文锋：幻方作为我们的出资人之一，有充足的研发预算，另外每年有几个亿的捐款预算，之前都是给公益机构，如果需要，也可以做些调整。

「暗涌」：但做基础层大模型，没有两三亿美元，连牌桌都上不了，我们如何支撑它的持续投入？

梁文锋：我们也在找不同出资方在谈。接触下来，感觉很多VC对做研究有顾虑，他们有退出需求，希望尽快做出产品商业化，而按照我们优先做研究的思路，很难从VC那里获得融资。但我们有算力和一个工程师团队，相当于有了一半筹码。

「暗涌」：我们对商业模式做了哪些推演和设想？

梁文锋：我们现在想的是，后边可以把我们的训练结果大部分公开共享，这样可以跟商业化有所结合。我们希望更多人，哪怕一个小 app都可以低成本去用上大模型，而不是技术只掌握在一部分人和公司手中，形成垄断。

「暗涌」：一些大厂后期也会有一些服务提供，你们差异化的部分是什么？

梁文锋：大厂的模型，可能会和他们的平台或生态捆绑，而我们是完全自由的。

「暗涌」：无论如何，一个商业公司去做一种无限投入的研究性探索，都有些疯狂。

梁文锋：如果一定要找一个商业上的理由，它可能是找不到的，因为划不来。

从商业角度来讲，基础研究就是投入回报比很低的。OpenAI早期投资人投钱时，想的一定不是我要拿回多少回报，而是真的想做这个事。

我们现在比较确定的是，既然我们想做这个事，又有这个能力，这个时间点上，我们就是最合适人选之一。

万卡储备与它的代价

>“一件激动人心的事，或许不能单纯用钱衡量。”

「暗涌」：GPU是这次ChatGPT创业潮的稀缺品，你们在2021年就可以有先见之明，储备了1万枚。为什么？

梁文锋：其实从最早的1张卡，到2015年的100张卡、2019年的1000张卡，再到一万张，这个过程是逐步发生的。几百张卡之前，我们托管在IDC，规模再变大时，托管就没法满足要求了，就开始自建机房。

很多人会以为这里边有一个不为人知的商业逻辑，但其实，主要是好奇心驱动。

「暗涌」：什么样的好奇心？

梁文锋：对 AI 能力边界的好奇。对很多行外人来说，ChatGPT 这波浪潮冲击特别大；但对行内人来说，2012年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型，复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变，但模型、数据和算力这三者的组合是不变的，特别是当 2020 年 OpenAI 发布 GPT3 后，方向很清楚，需要大量算力；但即便 2021 年，我们投入建设萤火二号时，大部分人还是无法理解。

「暗涌」：所以2012年起，你们就开始关注到算力的储备？

梁文锋：对研究员来说，对算力的渴求是永无止境的。做了小规模实验后，总想做更大规模的实验。那之后，我们也会有意识地去部署尽可能多的算力。

「暗涌」：很多人以为搭这个计算机集群，是量化私募业务会用到机器学习做价格预测？

梁文锋：如果单纯只做量化投资，很少的卡也能达到目的。我们在投资外做了大量研究，更想搞清楚什么样的范式可以完整地描述整个金融市场，有没有更简洁的表达方式，不同范式能力边界在哪，这些范式是不是有更广泛适用，等等。

「暗涌」：但这个过程也是一个烧钱行为。

梁文锋：一件激动人心的事，或许不能单纯用钱衡量。就像家里买钢琴，一来买得起，二来是因为有一群急于在上面弹奏乐曲的人。

「暗涌」：显卡通常会以20%的速度在折损。

梁文锋：我们没有精确计算过，但应该没这么多。英伟达的显卡是硬通货，即使是很多年前的老卡，也还有很多人在用。我们之前退役的老卡，二手处理时还挺值钱的，没亏太多。

「暗涌」：搭一个计算机集群，维护费用，人工成本，甚至电费也都是不菲的支出。

梁文锋：电费和维护费用其实是很低的，这些支出每年只占硬件造价的1%左右。人工成本不低，但人工成本也是对未来的投资，是公司最大的资产。我们选的人也会相对朴实一点，有好奇心，来这里有机会去做研究。

「暗涌」：2021年，幻方是亚太地区第一批拿到A100显卡的公司，为什么会比一些云厂商更早？

梁文锋：我们很早就对新卡做了预研、测试和规划。至于一些云厂商，据我所知，他们之前的需求都是分散的，直到2022年自动驾驶，有租用机器做训练的需求，又有付费能力，一些云厂商才去把基础设施建好。大厂很难单纯去做研究，做训练，它更多会是业务需求驱动。

「暗涌」：你会如何看大模型的竞争格局?

梁文锋：大厂肯定有优势，但如果不能很快应用，大厂也不一定能持续坚持，因为它更需要看到结果。

头部的创业公司也有技术做得很扎实的，但和老的一波AI创业公司一样，都要面对商业化难题。

「暗涌」：一些人会觉得一个量化基金却强调自己做AI，是为其他业务吹泡泡。

梁文锋：但其实我们的量化基金已经基本不怎么对外募集了。

「暗涌」：你会如何去辨别哪些是AI信仰者，哪些是投机者？

梁文锋：信仰者会之前就在这里，之后也在这里。他们更会去批量买卡，或者跟云厂商签长协议，而不是短期去租。

如何让创新真正发生

> “创新往往都是自己产生的，不是刻意安排的，更不是教出来的”

「暗涌」：深度求索团队的招聘进展如何？

梁文锋：初始团队已经集结到位，前期因为人手不够，会从幻方临时借调一部分人过去。去年底ChatGPT3.5风靡时，我们就开始动手招聘了，不过我们依然需要更多的人加入。

「暗涌」：大模型创业的人才也是稀缺的，有投资人说很多适合的人才可能只在OpenAI、FacebookAI Research 等巨头的AI lab里。你们会去海外挖这类人才吗？

梁文锋：如果追求短期目标，找现成有经验的人是对的。但如果看长远，经验就没那么重要，基础能力、创造性、热爱等更重要。从这个角度看，国内合适的候选人就不少。

「暗涌」：为什么经验没那么重要？

梁文锋：不一定是做过这件事的人才能做这件事。幻方招人有条原则是，看能力，而不是看经验。我们的核心技术岗位，基本以应届和毕业一两年的人为主。

「暗涌」：在创新业务上，你觉得经验是阻碍吗？

梁文锋：做一件事，有经验的人会不假思索告诉你，应该这样做，但没有经验的人，会反复摸索、很认真去想应该怎么做，然后找到一个符合当前实际情况的解决办法。

「暗涌」：幻方从一个完全无金融基因的外行，切入到这个行业，几年内做到头部，这条招人法则是其中秘密之一吗？

梁文锋：我们的核心团队，连我自己，一开始都没有量化经验，这一点很特殊。不能说是成功的秘密，但这是幻方的文化之一。我们不会故意回避有经验的人，但更多是看能力。

拿销售这个岗位举个例子。我们的两个主力销售，都是这个行业的素人。一个原来做德国机械品类外贸的，一个是原来在券商做后台写代码。他们进入这个行业时，没有经验，没有资源，没有积累。

而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用，同样规模和业绩下，利润率更高，很多家会试图模仿我们，但并没有成功。

「暗涌」：为什么很多家试图模仿你们，却没有成功？

梁文锋：因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。

事实上，第一年他们什么都做不出来，第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI，也没有所谓的任务。

「暗涌」：那你们的考核标准是？

梁文锋：我们不像一般公司，看重客户下单量，我们的销售卖多少和提成不是一开始就算好的，而会更鼓励销售去发展自己的圈子，认识更多人，产生更大影响力。

因为我们认为，一个让客户信任的正直的销售，可能在短时间内做不到让客户来下单，但可以让你觉得他是个靠谱的人。

「暗涌」：选来合适的人后，用何种方式让他进入状态?

梁文锋：交给他重要的事，并且不干预他。让他自己想办法，自己发挥。

其实，一家公司的基因是很难被模仿的。比如说招没有经验的人，怎么判断他的潜力，招进来之后如何才能让他成长，这些都没法直接模仿。

「暗涌」：你觉得什么是打造一个创新型组织的必要条件？

梁文锋：我们的总结是，创新需要尽可能少的干预和管理，让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的，不是刻意安排的，更不是教出来的。

「暗涌」：这是一种非常规的管理方式，这种情况下你如何确保一个人做事是有效率的，而且在你要的方向上？

梁文锋：招人时确保价值观一致，然后通过企业文化来确保步调一致。当然，我们并没有一个成文的企业文化，因为所有成文东西，又会阻碍创新。更多时候，是管理者的以身示范，遇到一件事，你如何做决策，会成为一种准则。

「暗涌」：你觉得这波做大模型的竞争中，创业公司更适合创新的组织架构会是和大厂竞争的破局点吗？

梁文锋：按照教科书的方法论来推导创业公司，在当下，他们做的事，都是活不下来的。

但市场是变化的。真正的决定力量往往不是一些现成的规则和条件，而是一种适应和调整变化的能力。

很多大公司的组织结构已经不能快速响应和快速做事，而且他们很容易让之前的经验和惯性成为束缚，而这波AI新浪潮之下，一定会有一批新公司诞生。

真正的疯狂

> “创新就是昂贵且低效的，有时候伴随着浪费。”

「暗涌」：做这样一件事，最让你们兴奋的是什么？

梁文锋：去搞清我们的猜想是不是事实，如果是对的，就会很兴奋了。

「暗涌」：这次大模型招人，什么是我们必卡的条件？

梁文锋：热爱，扎实的基础能力。其他都没那么重要。

「暗涌」：这种人容易找到吗？

梁文锋：他们的热情通常会表现出来，因为他真的很想做这件事，所以这些人往往同时也在找你。

「暗涌」：大模型可能是一件无休止投入的事，付出的代价会让你们顾虑吗？

梁文锋：创新就是昂贵且低效的，有时候伴随着浪费。所以经济发展到一定程度之后，才能够出现创新。很穷的时候，或者不是创新驱动的行业，成本和效率非常关键。看OpenAI也是烧了很多钱才出来。

「暗涌」：会觉得你们在做一件很疯狂的事吗？

梁文锋：不知道是不是疯狂，但这个世界存在很多无法用逻辑解释的事，就像很多程序员，也是开源社区的疯狂贡献者，一天很累了，还要去贡献代码。

「暗涌」：这里边会有一种精神奖赏。

梁文锋：类似你徒步50公里，整个身体是瘫掉的，但精神很满足。

「暗涌」：你觉得好奇心驱动的疯狂可以一直持续下去吗？

梁文锋：不是所有人都能疯狂一辈子，但大部分人，在他年轻的那些年，可以完全没有功利目的，投入地去做一件事。

财税茶座（C&S Tea House）cscz.org，中美贸易战

搜索此博客

疯狂的幻方：一家隐形AI巨头的大模型之路

标签

评论

发表评论

此博客中的热门博文

付鹏11月24日在HSBC内部演讲速记

图解美国对华及对全球其他国家关税政策影响-wsj

调查数据 | 2019年中国城镇居民家庭资产负债情况调查

华邮：美国贸易战背后的胡言乱语

美财政部长贝森特在关税问题上扮演次要角色，震惊华尔街

特朗普就职演讲中英文全文

美利坚沦陷的政治自然法根源

特朗普的“解放日”将重创美国经济

唐纳德·特朗普的关税让人回想起 20 世纪 30 年代 | 《经济学人》

彭博：债券市场混乱、交易狂潮和杰米·戴蒙：特朗普关税逆转内幕