跳至主要内容

人工智能正在接管药物开发

经济学人:

The most striking evidence that artificial intelligence can provide profound scientific breakthroughs came with the unveiling of a program called AlphaFold by Google DeepMind. In 2016 researchers at the company had scored a big success with AlphaGo, an AI system which, having essentially taught itself the rules of Go, went on to beat the most highly rated human players of the game, sometimes by using tactics no one had ever foreseen. This emboldened the company to build a system that would work out a far more complex set of rules: those through which the sequence of amino acids which defines a particular protein leads to the shape that sequence folds into when that protein is actually made. AlphaFold found those rules and applied them with astonishing success.

人工智能可以提供深刻的科学突破的最引人注目的证据来自谷歌 DeepMind 推出的一个名为 AlphaFold 的程序。2016 年,该公司的研究人员在 AlphaGo 上取得了巨大的成功,AlphaGo 是一个人工智能系统,它基本上自学了围棋规则,继续击败了游戏中评价最高的人类玩家,有时使用没有人预见到的策略。这鼓励了该公司建立一个系统,该系统将制定一套更复杂的规则:通过这些规则,定义特定蛋白质的氨基酸序列导致该序列在实际制造蛋白质时折叠成的形状。AlphaFold 发现了这些规则,并取得了惊人的成功。

The achievement was both remarkable and useful. Remarkable because a lot of clever humans had been trying hard to create computer models of the processes which fold chains of amino acids into proteins for decades. AlphaFold bested their best efforts almost as thoroughly as the system that inspired it trounces human Go players. Useful because the shape of a protein is of immense practical importance: it determines what the protein does and what other molecules can do to it. All the basic processes of life depend on what specific proteins do. Finding molecules that do desirable things to proteins (sometimes blocking their action, sometimes encouraging it) is the aim of the vast majority of the world’s drug development programmes.
这一成就既了不起又有益。这很了不起,因为几十年来,许多聪明的人类一直在努力创建将氨基酸链折叠成蛋白质的过程的计算机模型。AlphaFold 几乎与激发它的系统击败人类围棋玩家一样彻底地击败了他们的最大努力。之所以有用,是因为蛋白质的形状具有巨大的实际意义:它决定了蛋白质的作用以及其他分子可以对它做什么。生命的所有基本过程都取决于特定蛋白质的作用。找到对蛋白质有理想作用的分子(有时阻断它们的作用,有时鼓励它们的作用)是世界上绝大多数药物开发计划的目标。

Because of the importance of proteins’ three-dimensional structure there is an entire sub-discipline largely devoted to it: structural biology. It makes use of all sorts of technology to look at proteins through nuclear-magnetic-resonance techniques or by getting them to crystallise (which can be very hard) and blasting them with x-rays. Before AlphaFold over half a century of structural biology had produced a couple of hundred thousand reliable protein structures through these means. AlphaFold and its rivals (most notably a program made by Meta) have now provided detailed predictions of the shapes of more than 600m.
由于蛋白质三维结构的重要性,有一整个子学科主要致力于它:结构生物学。它利用各种技术通过核磁共振技术或让它们结晶(这可能非常困难)并用 X 射线爆破它们来观察蛋白质。在 AlphaFold 之前,半个多世纪的结构生物学已经通过这些手段产生了几十万个可靠的蛋白质结构。AlphaFold 及其竞争对手(最著名的是 Meta 开发的程序)现在已经提供了超过 600m 形状的详细预测。

As a way of leaving scientists gobsmacked it is a hard act to follow. But if AlphaFold’s products have wowed the world, the basics of how it made them are fairly typical of the sort of things deep learning and generative AI can offer biology. Trained on two different types of data (amino-acid sequences and three-dimensional descriptions of the shapes they fold into) AlphaFold found patterns that allowed it to use the first sort of data to predict the second. The predictions are not all perfect. Chris Gibson, the boss of Recursion Pharmaceuticals, an AI-intensive drug-discovery startup based in Utah, says that his company treats AlphaFold’s outputs as hypotheses to be tested and validated experimentally. Not all of them pan out. But Dr Gibson also says the model is quickly getting better.
作为一种让科学家目瞪口呆的方式,这是一个很难遵循的行为。但是,如果说 AlphaFold 的产品让世界惊叹不已,那么它如何制造它们的基本原理是深度学习和生成式人工智能可以为生物学提供的那种东西。在两种不同类型的数据(氨基酸序列和它们折叠成的形状的三维描述)上进行训练后,AlphaFold 发现了允许它使用第一种数据来预测第二种数据的模式。预测并不都是完美的。总部位于犹他州的人工智能密集型药物发现初创公司 Recursion Pharmaceuticals 的老板克里斯 · 吉布森(Chris Gibson)表示,他的公司将 AlphaFold 的输出视为需要实验测试和验证的假设。并非所有人都成功了。但吉布森博士也表示,这种模式正在迅速变得更好。
Crystal dreams 水晶梦

This is what a whole range of AIs are now doing in the world of biomedicine and, specifically, drug research: making suggestions about the way the world is that scientists could or would not come up with on their own. Trained to find patterns that extend across large bodies of disparate data, AI systems can discover relationships within those data that have implications for human biology and disease. Presented with new data they can use those patterns of implication to produce new hypotheses which can then be tested.
这就是生物医学领域,特别是药物研究领域正在做的一系列人工智能:对世界的方式提出建议,科学家可以或不会自己想出。经过训练,人工智能系统可以发现跨越大量不同数据的模式,可以发现这些数据中对人类生物学和疾病有影响的关系。有了新的数据,他们就可以使用这些暗示模式来产生新的假设,然后可以对其进行测试。

The ability of AI to generate new ideas provides users with insights that can help to identify drug targets and to predict the behaviour of novel compounds, sometimes never previously imagined, that might act as drugs. It is also being used to find new applications for old drugs, to predict the side effects of new drugs, and to find ways of telling those patients whom a drug might help from those it might harm.
人工智能产生新想法的能力为用户提供了见解,可以帮助识别药物靶点并预测可能充当药物的新化合物的行为,有时是以前从未想象过的。它还被用于寻找旧药的新应用,预测新药的副作用,并找到告诉那些药物可能帮助的患者和可能伤害的患者的方法。

Such computational ambitions are not new. Large-scale computing, machine learning and drug design were already coming together in the 2000s, says Vijay Pande, who was a researcher at Stanford University at the time. This was in part a response to biology’s fire hose of new findings: there are now more than a million biomedical research papers published every year.
这样的计算野心并不新鲜。大规模计算、机器学习和药物设计在 2000 年代就已经融合在一起,当时在斯坦福大学担任研究员的 Vijay Pande 说。这在一定程度上是对生物学新发现的回应:现在每年有超过一百万篇生物医学研究论文发表。

One of the early ways in which AI was seen to help with this was through “knowledge graphs”, which allowed all that information to be read by machines and mined for insights about, say, which proteins in the blood might be used as biomarkers revealing the presence or severity of a disease. In 2020 BenevolentAI, based in London, used this method to see the potential which baricitinib, sold by Eli Lilly as a treatment for rheumatoid arthritis, had for treating covid-19.
人工智能帮助解决这个问题的早期方法之一是通过 “知识图谱”,它允许机器读取所有这些信息,并挖掘血液中的哪些蛋白质可以用作揭示疾病存在或严重程度的生物标志物。2020 年,总部位于伦敦的 Benevolentai 使用这种方法看到了礼来公司销售的用于治疗类风湿性关节炎的巴瑞替尼在治疗 covid-19 方面的潜力。

This January, research published in Science described how AI algorithms of a different sort had accelerated efforts to find biomarkers of long covid in the blood. Statistical approaches to the discovery of such biomarkers can be challenging given the complexity of the data. AIs offer a way of cutting through this noise and advancing the discovery process in diseases both new, like long covid, and hard to diagnose, like the early stages of Alzheimer’s.
今年 1 月,发表在《科学》杂志上的研究描述了不同类型的人工智能算法如何加速在血液中寻找长期新冠病毒生物标志物的努力。鉴于数据的复杂性,发现此类生物标志物的统计方法可能具有挑战性。人工智能提供了一种消除这种噪音的方法,并推进了新疾病(如长期新冠)和难以诊断的疾病(如阿尔茨海默氏症的早期阶段)的发现过程。
The time is right
时机已到,

But despite this past progress, Dr Pande, now at Andreessen Horowitz, a venture-capital firm that is big on AI, thinks that more recent advances mark a step change. Biomedical research, particularly in biotech and pharma, was steadily increasing its reliance on automation and engineering before the new foundation models came into their own; now that has happened, the two seem to reinforce each other. The new foundation models do not just provide a way to cope with big bodies of data; they demand them. The scads of reliable data highly automated labs can produce in abundance are just the sort of thing for training foundation models. And biomedical researchers need all the help they can get to understand the torrents of data they are now capable of generating.
但是,尽管过去取得了这些进展,但现在在安德森 · 霍洛维茨(Andreessen Horowitz)工作,这是一家专注于人工智能的风险投资公司,他认为最近的进展标志着一个阶段的变化。生物医学研究,特别是生物技术和制药领域的生物医学研究,在新的基础模型出现之前,对自动化和工程的依赖正在稳步增加; 现在事情已经发生了,两者似乎相辅相成。新的基础模型不仅提供了一种处理大量数据的方法; 他们要求他们。高度自动化的实验室可以大量生成大量可靠数据,这些数据正是训练基础模型的那种东西。生物医学研究人员需要他们所能获得的所有帮助来理解他们现在能够生成的大量数据。

By finding patterns humans had not thought to look for, or had no hope of finding unaided, AI offers researchers new ways to explore and understand the mysteries of life. Some talk of AIs mastering the “language of biology”, learning to make sense of what evolution has wrought directly from the data in the same way that, trained on lots of real language, they can fluently generate meaningful sentences never uttered before.
通过寻找人类没有想过要寻找的模式,或者没有希望在没有帮助的情况下找到模式,人工智能为研究人员提供了探索和理解生命奥秘的新方法。有人说人工智能掌握了 “生物学语言”,学会了直接从数据中理解进化的结果,就像在大量真实语言上训练后,他们可以流利地生成以前从未说过的有意义的句子一样。

Demis Hassabis, the boss of DeepMind, points out that biology itself can be thought of as “an information processing system, albeit an extraordinarily complex and dynamic one”. In a post on Medium, Serafim Batzoglou, the chief data officer at Seer Bio, a Silicon Valley company that specialises in looking at how proteins behave, predicts the emergence of open foundation models that will integrate data spanning from genome sequences to medical histories. These, he argues, will vastly accelerate innovation and advance precision medicine.
DeepMind 的老板 Demis Hassabis 指出,生物学本身可以被认为是 “一个信息处理系统,尽管它是一个非常复杂和动态的系统”。在 Medium 上的一篇文章中,专门研究蛋白质行为的硅谷公司 Seer Bio 的首席数据官 Serafim Batzoglou 预测,开放基础模型的出现将整合从基因组序列到病史的数据。他认为,这些将大大加速创新并推动精准医疗的发展。

Like many of the enthusiasts piling into AI Dr Pande talks of an “industrial revolution…changing everything”. But his understanding of the time taken so far leads him to caution that achievements that justify that long-term enthusiasm change will not come overnight: “We are in a transitory period where people can see the difference but there is still work to do.”
像许多热衷于人工智能的爱好者一样,潘德博士谈到了 “工业革命...... 改变一切 “。但他对迄今为止所花费时间的理解使他警告说,证明长期热情变化的成就不会在一夜之间到来:“我们正处于一个过渡时期,人们可以看到差异,但仍有工作要做。
All the data from everywhere all at once
来自各地的所有数据一次全部

A lot of pharma firms have made significant investments in the development of foundation models in recent years. Alongside this has been a rise in AI-centred startups such as Recursion, Genesis Therapeutics, based in Silicon Valley, Insilico, based in Hong Kong and New York and Relay Therapeutics, in Cambridge, Massachusetts. Daphne Koller, the boss of Insitro, an AI-heavy biotech in South San Francisco, says one sign of the times is that she no longer needs to explain large language models and self-supervised learning. And Nvidia—which makes the graphics-processing units that are essential for powering foundation models—has shown a keen interest. In the past year, it has invested or made partnership deals with at least six different AI-focused biotech firms including Schrodinger, another New York based firm, Genesis, Recursion and Genentech, an independent subsidiary of Roche, a big Swiss pharmaceutical company.
近年来,许多制药公司在基础模型的开发方面进行了大量投资。与此同时,以人工智能为中心的初创公司也有所增加,例如位于硅谷的 Recursion、Genesis Therapeutics、位于香港和纽约的 Insilico 以及位于马萨诸塞州剑桥的 Relay Therapeutics。达芙妮 · 科勒(Daphne Koller)是位于南旧金山的一家以人工智能为主的生物技术公司 Insitro 的老板,她说,这个时代的一个标志是,她不再需要解释大型语言模型和自我监督学习。英伟达(Nvidia)制造了为基础模型提供动力必不可少的图形处理单元,该公司也表现出了浓厚的兴趣。在过去的一年里,它已经与至少六家不同的人工智能生物技术公司进行了投资或合作交易,包括另一家总部位于纽约的公司薛定谔(Schrodinger)、瑞士大型制药公司罗氏(Roche)的独立子公司 Genesis、Recursion 和基因泰克(Genentech)。

The drug-discovery models many of the companies are working with can learn from a wide variety of biological data including gene sequences, pictures of cells and tissues, the structures of relevant proteins, biomarkers in the blood, the proteins being made in specific cells and clinical data on the course of disease and effect of treatments in patients. Once trained, the AIs can be fine tuned with labelled data to enhance their capabilities.
许多公司正在使用的药物发现模型可以从各种生物学数据中学习,包括基因序列、细胞和组织的图片、相关蛋白质的结构、血液中的生物标志物、特定细胞中产生的蛋白质以及有关疾病过程和患者治疗效果的临床数据。经过训练后,可以使用标记数据对 AI 进行微调,以增强其功能。

The use of patient data is particularly interesting. For fairly obvious reasons it is often not possible to discover the exact workings of a disease in humans through experiment. So drug development typically relies a lot on animal models, even though they can be misleading. AIs that are trained on, and better attuned to, human biology may help avoid some of the blind alleys that stymie drug development.
患者数据的使用特别有趣。由于相当明显的原因,通常不可能通过实验发现人类疾病的确切运作方式。因此,药物开发通常在很大程度上依赖于动物模型,即使它们可能具有误导性。接受过人类生物学培训并更好地适应人类生物学的人工智能可能有助于避免一些阻碍药物开发的死胡同。

Insitro, for example, trains its models on pathology slides, gene sequences, MRI data and blood proteins. One of its models is able to connect changes in what cells look like under the microscope with underlying mutations in the genome and with clinical outcomes across various different diseases. The company hopes to use these and similar techniques to find ways to identify sub-groups of cancer patients that will do particularly well on specific courses of treatment.
例如,Insitro 在病理切片、基因序列、MRI 数据和血液蛋白上训练其模型。其中一个模型能够将显微镜下细胞外观的变化与基因组中的潜在突变以及各种不同疾病的临床结果联系起来。该公司希望利用这些和类似的技术来找到识别癌症患者亚组的方法,这些亚组在特定的治疗过程中表现特别好。

Sometimes finding out what aspect of the data an AI is responding to is useful in and of itself. In 2019 Owkin, a Paris based “AI biotech”, published details of a deep neural network trained to predict survival in patients with malignant mesothelioma, a cancer of the tissue surrounding the lung, on the basis of tissue samples mounted on slides. It found that the cells most germane to the AI’s predictions were not the cancer cells themselves but non-cancerous cells nearby. The Owkin team brought extra cellular and molecular data into the picture and discovered a new drug target. In August last year a team of scientists from Indiana University Bloomington trained a model on data about how cancer cells respond to drugs (including genetic information) and the chemical structures of drugs, allowing it to predict how effective a drug would be in treating a specific cancer.
有时,找出人工智能响应数据的哪个方面本身就是有用的。2019 年,总部位于巴黎的 “人工智能生物技术公司”Owkin 公布了一个深度神经网络的细节,该网络经过训练,可以根据安装在载玻片上的组织样本预测恶性间皮瘤(一种肺部周围组织的癌症)患者的生存率。研究发现,与人工智能预测最相关的细胞不是癌细胞本身,而是附近的非癌细胞。Owkin 团队将额外的细胞和分子数据带入图片中,并发现了一种新的药物靶点。去年 8 月,印第安纳大学布卢明顿分校的一组科学家训练了一个模型,该模型基于癌细胞对药物的反应(包括遗传信息)和药物的化学结构,使其能够预测药物在治疗特定癌症方面的有效性。

Many of the companies using AI need such great volumes of high quality data they are generating it themselves as part of their drug development programmes rather than waiting for it to be published elsewhere. One variation on this theme comes from a new computational sciences unit at Genentech which uses a “lab in the loop” approach to train their AI. The system’s predictions are tested at a large scale by means of experiments run with automated lab systems. The results of those experiments are then used to retrain the AI and enhance its accuracy. Recursion, which is using a similar strategy, says it can use automated laboratory robotics to conduct 2.2m experiments each week.
许多使用人工智能的公司需要大量高质量的数据,他们自己生成这些数据,作为其药物开发计划的一部分,而不是等待它在其他地方发布。这个主题的一个变体来自基因泰克公司一个新的计算科学部门,该部门使用 “循环实验室” 方法来训练他们的人工智能。该系统的预测通过自动化实验室系统运行的实验进行大规模测试。然后,这些实验的结果被用于重新训练人工智能并提高其准确性。Recursion 正在使用类似的策略,该公司表示,它可以使用自动化实验室机器人每周进行 2.2m 的实验。
The point is to change it
关键是要改变它

As pharma firms become increasingly hungry for data, concerns about the privacy of patient data are becoming more prominent. One way of dealing with the problem, used by Owkin among others, is “federated learning”, in which the training data it needs to build an atlas of cancer cell types never leaves the hospital where the tissue samples required are stored: what the data can offer in terms of training is taken away. The data themselves remain.
随着制药公司对数据的需求越来越大,对患者数据隐私的担忧也变得越来越突出。Owkin 等人使用的一种处理问题的方法是 “联邦学习”,在这种学习中,构建癌细胞类型图谱所需的训练数据永远不会离开存储所需组织样本的医院:数据在训练方面可以提供的东西被带走了。数据本身仍然存在。

Chart: The Economist 图:《经济学人》

The implications of AI go beyond understanding disease and on into figuring out how to intervene. Generative AI models, such as ProteinSGM from the University of Toronto, are now powerful tools in protein design because they are not merely able to picture existing proteins but also to design new ones—with desired characteristics—that do not currently exist in nature but which are possible ways of embodying a desired function. Other systems allow chemists to design small molecules that might be useful as drugs as they interact with a target in a desired way.
人工智能的意义不仅仅是理解疾病,而是弄清楚如何干预。生成式人工智能模型,如多伦多大学的 Proteinsgm,现在是蛋白质设计的强大工具,因为它们不仅能够描绘现有的蛋白质,而且还能够设计新的蛋白质——具有所需的特征——这些特征目前在自然界中不存在,但可能是体现所需功能的方式。其他系统允许化学家设计可能用作药物的小分子,因为它们以所需的方式与靶标相互作用。

At every stage the AI hypotheses need to be checked against reality. Even so, such an approach seems to speed up discovery. A recent analysis of drugs from “AI-intensive” firms carried out by BCG, a consulting group, found that of eight drugs for which information was available, five had reached clinical trials in less than the typical time for doing so. Other work suggests AI could yield time and cost savings of 25% to 50% in the preclinical stage of drug development, which can take four to seven years. Given the cost in time and money of the whole process, which can be several billions of dollars for a single drug, improvements could transform the industry’s productivity. But it will take time to know for sure. Drug pipelines are still slow; none of these promised new drugs has yet got to market.
在每个阶段,人工智能的假设都需要根据现实进行检查。即便如此,这种方法似乎可以加快发现速度。咨询集团 BCG 最近对 “人工智能密集型” 公司的药物进行了分析,发现在有信息的八种药物中,有五种药物在不到正常时间的时间内进入了临床试验。其他研究表明,在药物开发的临床前阶段,人工智能可以节省 25% 至 50% 的时间和成本,这可能需要四到七年的时间。考虑到整个过程的时间和金钱成本,一种药物可能要花费数十亿美元,改进可能会改变行业的生产力。但这需要时间才能确定。药物管线仍然缓慢; 这些承诺的新药都没有进入市场。

Insilico Medicine is one of the companies hoping for that to change. It uses a range of models in its drug development process. One identifies the proteins that might be targeted to influence a disease. Another can design potential new drug compounds. Using this approach it identified a drug candidate which might be useful against pulmonary fibrosis in less than 18 months and at a cost of $3m—a fraction of the normal cost. The drug recently started Phase 2 trials.
英矽智能是希望改变这种状况的公司之一。它在药物开发过程中使用了一系列模型。一种是确定可能被靶向影响疾病的蛋白质。另一个可以设计潜在的新药化合物。使用这种方法,它确定了一种候选药物,该候选药物可能在不到 18 个月的时间内对肺纤维化有用,成本为 300 万美元 - 只是正常成本的一小部分。该药物最近开始了 2 期试验。

A lot of pharma firms in China are doing deals with AI-driven companies like Insilico in the hope of seeing more of the same. Some hope that such deals might be able to boost China’s relatively slow-growing drug-development businesses. China’s contract research organisations are already feeling the benefits of AI fuelled interest in new molecules from around the world. Investment in AI-assisted drug discovery in China was more than $1.26bn in 2021.
中国的许多制药公司正在与英矽智能等人工智能驱动的公司进行交易,希望看到更多类似的交易。一些人希望这些交易能够提振中国增长相对缓慢的药物开发业务。中国的合同研究机构已经感受到了人工智能的好处,这激发了人们对世界各地新分子的兴趣。2021 年,中国人工智能辅助药物发现投资超过 12.6 亿美元。

The world has seen a number of ground breaking new drugs and treatments in the past decade: the drugs targeting GLP-1 that are transforming the treatment of diabetes and obesity; the CAR-T therapies enlisting the immune system against cancer; the first clinical applications of genome editing. But the long haul of drug development, from discerning the biological processes that matter to identifying druggable targets to developing candidate molecules to putting them through preclinical tests and then clinical trials, remains generally slow and frustrating work. Approximately 86% of all drug candidates developed between 2000 and 2015 failed to meet their primary endpoints in clinical trials. Some argue that drug development has picked off most of biology’s low-hanging fruit, leaving diseases which are intractable and drug targets that are “undruggable”.
在过去十年中,世界出现了许多突破性的新药和治疗方法:靶向 GLP-1 的药物正在改变糖尿病和肥胖症的治疗; CAR-T 疗法利用免疫系统对抗癌症; 基因组编辑的首次临床应用。但是,从辨别重要的生物过程到确定可成药靶点,再到开发候选分子,再到通过临床前测试,再到临床试验,药物开发的长期过程通常仍然是缓慢而令人沮丧的工作。在 2000 年至 2015 年间开发的所有候选药物中,约有 86% 未能达到临床试验的主要终点。一些人认为,药物开发已经摘掉了生物学中大部分唾手可得的果实,留下了难以解决的疾病和 “不可成药” 的药物靶点。

The next few years will demonstrate conclusively if AI is able to materially shift that picture. If it offers merely incremental improvements that could still be a real boon. If it allows biology to be deciphered in a whole new way, as the most boosterish suggest, it could make the whole process far more successful and efficient—and drug the undruggable very rapidly indeed. The analysts at BCG see signs of a fast-approaching AI-enabled wave of new drugs. Dr Pande warns that drug regulators will need to up their game to meet the challenge. It would be a good problem for the world to have. ■
未来几年将最终证明人工智能是否能够实质性地改变这一局面。如果它只是提供渐进式的改进,那仍然是一个真正的福音。如果它允许以一种全新的方式破译生物学,正如最有力的建议,它可以使整个过程更加成功和高效,并且确实非常迅速地对不可成药的人进行药物治疗。BCG 的分析师看到了人工智能支持的新药浪潮快速逼近的迹象。潘德博士警告说,药品监管机构需要提高他们的水平来应对挑战。这对世界来说将是一个好问题。

评论

此博客中的热门博文

中国 AI 初创公司 DeepSeek 是如何与硅谷巨头竞争的

纽约时报: DeepSeek 的工程师说,他们的系统只需要约 2000 块美国芯片制造商英伟达生产的专用计算机芯片,而美国大公司的 AI 系统需要多达 1.6 万块芯片。 Marlena Sloss/Bloomberg 圣诞节的第二天,一家名为深度求索 (DeepSeek) 的中国小型初创公司发布了一个新的人工智能系统,其功能可与 OpenAI 和谷歌等公司的尖端聊天机器人相媲美。 能做到这点本已是一个里程碑。但这个名为 DeepSeek-V3 的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的 研究论文 中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。 这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。 但 DeepSeek 大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。 据美国人工智能公司一直使用的行业基准测试,DeepSeek 聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。 而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约 600 万美元的原始计算能力就训练了新模型,不到科技巨头 Meta 训练其最新人工智能模型所耗资金的十分之一。 “有 600 万美元资金的公司在数量上远远多于有 1 亿美元或 10 亿美元资金的公司,” 风险投资公司 Page One Ventures 的投资人克里斯 · 尼科尔森说道,他主要投资人工智能技术。 自从 OpenAI 2022 年发布了 ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。 世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达 1.6 万个芯片,甚至更多。但 DeepSeek 的工程师却说,他们只用了约 2000 个英伟达生产的专用芯片。 中国进口芯片受到限制,迫使 DeepSe...

揭秘DeepSeek:一个更极致的中国技术理想主义故事

  做贡献者,而非搭便车者。 文 | 于丽丽 编辑 | 刘旌 中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。 一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。 在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。 弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。 这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA( 一种新的多头潜在注意力机制 )架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。 在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。” 在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。 多位行业人士告诉我们, 这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。” 而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见: 美国更擅长从0-1的技...

付鹏11月24日在HSBC内部演讲速记

《2024年年终回顾和2025年展望——对冲风险VS软着陆》   上篇 正值年底,虽然刚才汇丰一直强调大家不录音不录像,但大概率你挡不住。我在这儿讲话会谨慎一些,非常小心谨慎,大概率会有人透露出去,放到YouTube上,基本上所有见我都说付总我在YouTube上看过你的视频,我说那都是盗版的,靠盗版发财的也不少。 今天和大家分享的内容基本上都是官方的,回顾会多一点,展望不多,因为这个月展望完了之后下个月怎么办?有些话对我来讲我倒觉得很简单,本质上原来我们是做Hedge Fund出身,所以我们的逻辑框架整体具有极强的延续性,不是说今年去讨论,或者说明年去讨论。 惯性思维从2016年开始,我一直在跟大家强调这个世界已经完全不一样了。当然经历过过去的几年时间,我相信在座各位应该对这番话的理解变得越发深刻。 2016年实际上是美国特朗普的第一次大选,我有一个特点,我的特征是如果我觉得什么地方有投资机会,我可能第一时间去一线调研,我不喜欢看YouTube,我也不喜欢在网上扒。当然你会说,现在ChatGPT很强大了,人工智能好像能帮你解决很多问题,但你们有没有想过,可能广泛流传或者广泛传播的很多信息是错的。这一点在2012年当时我从日本做完调研回来之后,我的感悟是最深的。 当然去日本有一个重要的人物,名字叫本森特,很快大家就会非常熟悉他的,目前来讲应该是特朗普政府提名的美国财长。本森特原来是索罗斯基金实际掌控人,因为索大爷已经年龄很大了,去年的时候才刚刚把基金的业务交给他儿子亚历山大,但在这之前,最主要的几场战役本质上来讲都是本森特在主导。 2012年当时我从北京去香港约朋友们吃饭的饭局上,当时斯索罗斯基金在香港办公室跟我说,本森特从这儿去了日本。我说OK。我经常说一句话“站在巨人的肩膀上看问题。” 当然你知道,网民们最可怕的地方是巴菲特“SB”、索罗斯“SB”,我最“牛逼”。你要记住,他们的所有行为一定有很大的变化,很多人可能都不知道,巴菲特第一次去是2011年,我们正在讲福岛核电站泄漏,核废水污染以后海鲜不能吃的时候,一个80多岁的老头顶着核辐射泄漏去日本吃海鲜了,当然他去日本干吗,这其实很关键。 之后我们跑到日本做完调研回来之后那几年,我陆陆续续跟很多人讲,日本正在发生变化,日本的利率结构都会随之变化的,当然包括日本的证券市场。今年日本股市终于走出这35年了,创下...

如何从中国走线(润到)美国

经济学人: 他们来美国的原因各不相同。有些人寻求经济机会。其他人则对统治感到失望。许多人在网上看到其他中国移民穿越哥伦比亚和巴拿马之间无法无天的丛林地带,寻求更好的生活。数以万计的中国公民前往南美,这是前往美国的危险旅程的第一步。这条路线非常受欢迎,以至于它获得了一个中文昵称:走线,即走线。 过去两年,中国移民一直是穿越美国南部边境增长最快的群体。2023 年,美国边境巡逻队遇到了 3.7 万多名中国移民,高于 2022 年的 3,813 人和 2021 年的 689 人。今年前八个月又有 2.1 万人入境。他们仍然只是 2023 年试图越境的 200 万移民中的一小部分。但由于美国和中国陷入了经济、意识形态和地缘战略竞争,中国移民已成为政治焦点。 唐纳德·特朗普说,来自中国的新移民大多是适龄参军的男性。“他们是想在我们国家组建一支小军队吗?”他问道。其他共和党政客称中国移民是潜在的间谍。卡马拉·哈里斯和民主党人没有那么危言耸听,但他们也担心边境问题。在总统竞选中,移民是首要关注的问题,而中国是一个方便的反面人物,因此几乎没有人努力去了解是什么推动了这种人口流动,以及这对每个国家意味着什么。 《经济学人》花了三个月时间在哥伦比亚、墨西哥和美国进行报道。我们采访了数十名移民,以及走私者、边防警卫和专家。一些人允许我们追踪他们的移民旅程。一些人经过数周的乘船、乘公共汽车、步行和乘飞机的旅行才抵达美国。其他人则在途中失去了一切。大多数人被更美好未来的承诺所吸引,并遵循了试图利用美国不完善的移民制度的策略。但他们的旅程也揭示了中国的情况,压制性统治和日益恶化的经济萎靡不振正在将人们推向远离中国的道路。 第一部分 内科克利 对于许多中国移民来说,美洲的第一站是厄瓜多尔,直到最近,厄瓜多尔才向他们提供免签证入境。但他们很快就搬到了哥伦比亚。在那里,我们遇到了黄女士,一位 40 多岁、身穿亮粉色连衣裙的女性。她已经打破了出生地——中国西南部贵州省的一个贫穷村庄——的保守规范。村里大多数妇女终生务农和养育孩子。然而,黄女士离开家乡去了大城市,养育了两个孩子,并与嗜赌成性的丈夫离婚。她来到了加勒比海边缘的海滨小镇内科克利,即将进入哥伦比亚和巴拿马之间危险的达连峡丛林。 她两个 20 多岁的妹妹也来了。她们之前都没有离开过中国。黄女士说,她们对未来的危险知之甚少,但梦想着到达美国。自疫...

三联深度:逃出妙瓦底 缅甸诈骗园区

 原创 飞天小豚 三联生活周刊 2025年01月10日 18:06 北京 *本文为「三联生活周刊」原创内容 没有高薪,没有偷渡,更没有去缅甸、柬埔寨这些危险的国家,中国留学生李奥不明白,为什么自己只是在安全的国家想正常找一份工作,却不断跌入招聘陷阱,最终沦为人口贩卖的牺牲品。在经历过一场在缅东的死亡之旅后他才明白,海外华人招聘圈已经被博彩、诈骗等灰色产业渗透,而印象中的那些城市,已经不同以往。 记者|夏杰艺 实习记者|顾靓楠 陷阱 2022年6月5日,李奥站在东南亚一条混浊的泥水河前。河很窄,不过五六米,两岸是一样的黄褐色烂泥地和杂乱的野树林,河面上一条孤零零的小船。 很久之后他才知道,这条不起眼的小河是莫伊河,位于泰缅边境交界处,是知名的偷渡“天堂”。 这里荒无人烟,见不到警察和海关人员,和他同行的是一个肯尼亚女人和一个二三十岁的中国男子。三人的背后跟着四名大汉,他们不怎么说话,但其中一人手上拿着一把小臂长的砍刀,明晃晃的。 泰缅边境的莫伊河岸(摄于2022年) “They are human traffic.”旁边的肯尼亚女人意识到自己的命运,轻声说道。李奥也明白,他们三人已经沦为“猪仔”——人口贩卖的牺牲品。 李奥是浙江台州人,27岁,高二时被父母送到英国读书,随后进入英国利物浦大学学习,但因家中破产被迫辍学,没能获得高中和大学文凭。他的唯一优势是英语,所以工作后有一半时间都在中东、非洲等地的华人企业就职,从事翻译或行政工作。在李奥看来,海外华人企业的待遇更优厚:工资大多在每月一万五千元以上,还包食宿。 2022年初,他先是在肯尼亚的蒙巴萨为江门机械松林有限公司工作,后来又换到阿联酋阿布扎比,在中国通信服务(CCS)的分公司做项目经理,由于岗位期望与公司产生冲突,5月,他辞职来到迪拜,边旅行边求职。 李奥对本刊回忆,自己当时在迪拜当地的华人生活网站“迪拜全酋通”上浏览招聘信息,注意到了一家泰国曼谷的企业。该企业声称从事跨境电商业务,老板需要招聘一名助理兼翻译。该企业跟李奥约了一次英文电话面试,并要求他录制了一则自我介绍的英文短片,然后发放了入职邀请。在李奥看来,该企业和大部分他打过交道的海外华人企业类似——入职程序比较随意,薪资每月一万多元,包住宿和来程机票,但不愿意给劳动者办工签,而是以旅游签入境。“曼谷,在我心里还是一个比较安全、讲法治的地方,...

2025年首个交易日三大指数集体收跌,沪指跌2.66%,深成指跌3.14%,创业板指跌3.79%。全市场成交额1.4万亿元,全市场超4300只个股下跌。

2025年首个交易日三大指数集体收跌,沪指跌2.66%,深成指跌3.14%,创业板指跌3.79%。全市场成交额14095亿元,较上日放量509亿元。全市场超4300只个股下跌。 此前,中国股市去年 录得 2020 年以来的首次年度上涨。投资者指出,谨慎情绪背后有一系列因素,包括财新制造业调查结果低于预期。2024 年最后一个交易日,沪深 300 指数大幅下跌,也导致该指数跌破备受关注的技术门槛,可能导致一些基金进一步抛售。 与此同时,中国工商银行、中国农业银行等几只大型金融股正在进行除息交易,加剧了基准指数的损失。 abrdn Plc 投资总监Xin-Yao Ng 表示:“当我们将资金投入 2025 年第一季度时,中国经济的下行风险似乎远大于上行风险。” 他表示,关税、宏观数据疲软以及政策刺激措施可能在 3 月份两会(即中国一年一度的立法会议)召开之前停滞不前等因素都存在不确定性。 继 9 月底刺激措施推动的反弹之后,中国股市基本处于区间波动,投资者等待出台更大规模的刺激措施来推动市场走高。继 12 月中央经济工作会议之后,中国 表示 将在 2025 年增加公共借贷和支出,并将政策重点转向消费,以努力修复经济的薄弱环节,因为即将实施的美国关税威胁到出口。 周四香港股市休市后交易量显著,恒生指数成交量比过去 30 个交易日的平均成交量高出 60%。与此同时,上海和深圳股市的成交量最近几天一直低于 1.5 万亿元人民币(2060 亿美元),这表明交易员选择保持观望,直到催化剂变得明朗。 福建同恒投资的基金经理杨廷武表示,“今天的下跌可能是由于量化基金在12月31日下跌(当时基金调整了年终仓位)后,在岸指数跌破60日移动均线后,被迫抛售所致。”

Revealing DeepSeek: A more extreme story of Chinese technological idealism

  文 | 于丽丽    Wen | Yu Lili 编辑 | 刘旌    Edit | Liu Jing 中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。 Of the 7 major model startups in China, DeepSeek is the least silent, but it can always be remembered in an unexpected way. 一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。 A year ago, this kind of quantitative private equity giant fantasies that did not mean to derive behind it was the only company outside the large factory that reserved 10,000 A100 chips. One year later, it came from it to trigger the source of China's big model price war. 在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。 In May, which was bombarded by AI, Deepseek became famous. The reason is that they released an open source model called DeepSeek V2, which provides an unprecedented cost-effectiveness: the reasoning cost of reasoning is reduced to only 1 yuan per millio...

特朗普就职演讲中英文全文

谢谢,谢谢大家,非常感谢你们。非常非常感谢。副总统万斯,众议院议长约翰逊,参议员图恩,美国首席大法官罗伯茨,以及美国最高法院的大法官们。 克林顿总统、布什总统、奥巴马总统、拜登总统、哈里斯副总统,以及我的各位同胞, 美国的黄金时代从现在开始 。 从今天起,我们的国家将再次繁荣,并在全世界受到尊重。我们将成为每个国家的羡慕对象,不再让自己受到剥削。 在特朗普政府的每一天,我都会把美国放在第一位 。 我们的主权将被夺回。我们的安全将得到恢复。正义的天平将重新平衡。司法部和我们政府的恶劣、暴力和不公正的武器化将结束。 我们的首要任务是创造一个骄傲、繁荣和自由的国家。美国将很快变得更伟大、更强大,并且比以往任何时候都更加卓越。 我自信和乐观地回到总统职位上,我们正处于一个令人兴奋的新国家成功时代的开始。一股变革的浪潮正在席卷整个国家,阳光洒遍全世界,美国有机会前所未有地抓住这一机遇。 但是首先,我们必须诚实面对我们面临的挑战。虽然挑战很多,但它们将被美国当前所见证的这一伟大势头摧毁。 今天我们聚集在一起时,我们的政府正面临一场信任危机。多年来,一个激进且腐败的体制从我们的公民手中攫取权力和财富,而我们社会的支柱却破碎不堪,似乎完全失修。 我们现在的政府连国内的简单危机都无法应对,同时还在海外接二连三地陷入灾难性事件。 它未能保护我们辉煌、守法的美国公民,却为危险的罪犯提供庇护和保护,这些罪犯许多来自监狱和精神机构,他们非法进入我们的国家。我们有一个政府,无限制地资助外国边界的防御,却拒绝保护美国的边界,或者,更重要的是,保护自己的人民。 我们的国家在紧急情况下已经无法提供基本服务,这一点最近由北卡罗来纳州的优秀人民证明了。他们受到如此糟糕的对待。而其他几个州在几个月前发生飓风后仍在遭受痛苦。 或者更近的是洛杉矶,我们正在目睹大火仍在无情地燃烧。从几周前开始,它们毫无防备地横扫房屋和社区,甚至影响到我们国家一些最富有和最有权势的人,其中一些人现在就坐在这里。他们已经无家可归了。这很有趣。 但是我们不能让这种情况发生。每个人都无能为力。这将会改变。我们的公共卫生系统在灾难时无法提供帮助,却在其上花费了比世界上任何国家都要多的钱。 我们的教育系统则教导我们的孩子为自己感到羞愧,在许多情况下,教他们仇恨我们的国家,尽管我们试图如此绝望地向他们提供爱。所有这一切将从今天开始改变,而且...

市场对中国通货紧缩螺旋发出警报

彭博社: 中国11万亿美元政府债券 市场 的投资者对这个世界第二大经济体从未如此悲观,一些投资者现在大举押注中国将出现与上世纪90年代日本类似的通货紧缩螺旋。 尽管中国 政府 宣布了一系列经济刺激措施,但 中国 10 年期主权债券收益率近几周 跌至历史最低水平,与美国同类债券收益率差距达到前所未有的 300 个基点。 此次暴跌导致中国债券收益率远低于2008年全球金融危机和新冠疫情期间的水平,凸显出人们日益担心政策制定者无法阻止中国陷入可能持续数十年的经济低迷。 如果债券市场预测正确,其影响将是深远的。长期通货紧缩将阻碍世界最大的经济增长引擎之一,给这个人口第二大国家的社会稳定带来新的压力,并加剧资本外流,去年年底,资本外流导致中国金融市场出现创纪录的外逃现象。 投资者对日本化 风险的重视程度可见一斑 。中国 10 家最大的券商均对邻国日本的失落几十年进行了研究。 以比较两国经济而闻名的经济学家 顾朝林表示,中国企业和智库曾与他联系,请他分享自己的观点。 高盛集团 本周表示,日本的案例为中国股市投资者提供了“宝贵的策略”,他们正因近十年来最糟糕的开局而感到不安。 虽然还不能确定中国是否会重现泡沫破灭后的日本,但 相似之处 却不容忽视。两国都遭遇了房地产崩盘、私人投资疲软、消费不振、债务负担过重以及人口迅速老龄化。即便是那些将中国经济管控得更紧作为乐观理由的投资者也担心,官员们没有采取更有力的行动。日本的一个明显教训是:当局越是拖延消除投资者、消费者和企业的悲观情绪,恢复经济增长就越困难。 “如果不加以纠正,这种恶性循环将会越来越严重,”  abrdn Plc 驻新加坡的投资总监 Xin-Yao Ng表示 ,该公司管理着全球 4940 亿美元的资产。“日本的教训有心理因素,这种情况持续的时间越长,企业和消费者信心就会越弱。” 进入 2025 年,中国市场已处于危险之中。随着基准 10 年期国 债收益率 首次跌破 1.6%,专家们 提出了 收益率接近于零的曾经不可想象的前景。今年前四个交易日,沪深 300 指数 下跌了 3.5%,而离岸人民币交易价格接近历史低点——促使当局本周抑制跌势。 中国债券收益率下跌 其 30 年期主权债券收益率已跌至日本 资料来源:彭博社 野村综合研究所 首席经济学家辜朝晖表示:“债券市场已经在告诉中国人:‘你们正陷入资产负债表衰退’。...

2万字全文: 段永平2025年1月5日浙大师生见面会问答实录

   来源:Web3 天空之城   天空之城 · 城主:    今天,段永平回母校浙大与师生进行了一场 长达 90 分钟的现场见面问答会。本城进行了书面整理,全场问答一共两万字左右。和感兴趣各位分享。   --   男主持人:   我们学生在日常学习方法以及未来人生规划上,可以做出哪些顺应时代变迁的措施,特别是应对 AI 变化时,我们可以持有哪些因时而变的想法。不知道段学长有没有什么建议?   段永平:   时代一直在变,工具也在变,但基本的东西仍然一样。学校主要是学习方法,有了 AI 只是能让你效率更高。当然,做论文的时候需要小心,不要发生不当行为。我觉得最主要的是,不论你是在学习方法还是创业上,每一个决策不能仅着眼于当下,而应该考虑到五年、十年甚至二十年后的影响。我的回答可能适用于许多问题,我们需要有长远的眼光。   男主持人: 感谢段学长的建议,同时也提醒了我们要适当使用 AI 工具,特别是在学术研究上要谨慎。   段永平: AI 工具在学术和研究中确实需要谨慎使用。   女主持人:   感谢段学长的回答。接下来,我们来看我手中的入场券上的第一个问题,这是来自我们经济学院的同学。很幸运他成为今天第一个提问的同学。他的提问是,段学长在投资时如何快速判断一家公司是否值得长期投资?   段永平:   基本上,我不会快速做出这样的判断。过去十多年,我关注的公司就那几个,这源自我对企业、生意、产品多年的理解。我没见过谁能很快下判断,包括巴菲特和芒格这样的投资高手,他们的节奏也很慢。他们并不怕错过一些机会,但最重要的是不要踩雷。有人可能会说,有钱不需要快赚,但我们缺钱就想快赚。我回应说,这可能正是你缺钱的原因,因为一直想着快速赚钱。其实我也想挣快钱,谁不想挣快钱?但是呢,秩序不可违很重要,就是你还是要踏踏实实做该做的事情。   女主持人:   好的,学长的意思就是要敢于尝试,并且眼光要放得远一些。   段永平:   敢于尝试这个太难了。你怎么个尝试法?就说呢,我不是一个不敢冒风险的人,但是呢,你要拼到你能够承受得起的风险。大家不能够说,哎呀,谁谁谁,你看他赌对了。那你说这个投资我最厉害的,那是二十分钟赚了二十多倍。人家说你干嘛呢?我在赌场呢。一百块钱赚了两千多块钱,我就走了。但是我可以重复这件事吗?我不能。那你说我当年投 网易  ( 88.25 ,...