经济学人:
大语言中充满了格言。眼见为实。一图胜千言。眼不见,心不烦。这样的例子不胜枚举。这是因为我们人类从视觉中获得了很多意义。但视觉上的视觉并不普遍是可能的。 直到大约 5.4 亿年前,所有生物都生活在水面以下,它们都看不见。 直到三叶虫的出现,动物才第一次出现类似的阳光。 随后发生的事情令人惊叹。接下来的1000万到1500万年里,视觉的能力开启了一个被称为寒武纪生命大爆发的时期,大多数现代动物的先祖都出现在这个时期。
今天,我们正在经历人工智能(AI)的现代寒武纪大爆发。似乎每周都会出现一种新的、令人难以置信的工具。最初,生成式人工智能革命是由大型语言模型(如聊天)GPT)推动的,这些模型模仿了人类的视觉智能。但我相信基于智能(我称之为空间语言智能)更为根本。语言很重要,但作为人类,我们理解和与世界互动的能力很大提示取决于我们所看到的东西。
计算机视觉是人工智能的一个分支,长期以来,它一直致力于让计算机拥有与人类相同甚至更好的智能空间。15年来,该领域发展迅速。我确信人工智能的发展必须以人类利益为中心,因此我将自己的职业生涯奉献给了人工智能。
没有人教孩子们如何看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄五次“照片”。到三岁时,孩子们已经看过数亿张这样的照片了。
我们从近几年的研究中得知,视觉的一个基本要素是物体识别,所以我们开始教计算机这种能力。这并不容易。有无数种方法可以将猫的三维(3D)形状渲染成两个维(2D)图像,具体取决于视角、姿势、背景等。计算机要识别图片中的猫,它需要掌握大量信息,就像孩子一样。
直到2000年代,不同元素汇聚在一起,才实现了这一目标。 当时,已经存在了几十年的多层神经算法与现代图形处理单元(GPU)的强大功能和“大数据”的可用性(来自互联网、数码相机等的存储亿张图像)相结合。
我的实验室为这种融合贡献了“大数据”元素。2007年,在一个叫ImageNet的项目中,我们创建了一个包含1500万张带标签图像的数据库,涵盖22,000个对象类别。然后,我们和其他研究人员使用图像对应的文本标签训练神经网络模型,模型学会使用简单的描述一张以前从未见过的照片。这些使用 ImageNet数据库创建的图像识别系统取得了迅速的进展,有助于引发现代人工智能的热潮。
随着技术的进步,基于传输架构和扩散等技术的新一代模型带来了生成式人工智能工具的曙光。在语言领域,这使得Chat GPT等聊天机器人成为可能。在视觉领域,现代系统不仅可以识别,还可以根据文本提示生成图像和视频。结果令人印象深刻,但仍然只是二维码的。
计算机打造人类拥有的空间智能,就需要能够模拟世界、推理事物和地点,并在时间和三维空间中交互。简单来说,我们需要从大型语言模型转向大型世界模型。
我们已经在学术界和工业界的实验室中看到了这方面的曙光。借助最新的人工智能模型,这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可以使用文本提示来控制机器人——例如,要求他们拔掉手机充电器或做一个简单的三明治。或者,给定一个二维图像,模型可以将其转换为无数个可信的三维空间供用户探索。
应用是无穷无尽的。想象一下,机器人可以在普通家庭中导航并照顾老人;为外科医生提供不劳而获的额外帮助;或者用于模拟、培训和教育。这是真正以人为本的人工智能,而智能空间是它的下一个前沿。人类花了数亿年进化而来的技术,在中只用了几十年才出现了。而我们人类将是计算机的受益者 。
评论
发表评论