经济学人: 大 语言中充满了 格言。眼见为实。一图胜千言。眼不见,心不烦。这样的例子不胜枚举。这是因为我们人类从视觉中获得了很多意义。但视觉上的视觉并不普遍是可能的。 直到大约 5.4 亿年前,所有生物都生活在水面以下,它们都看不见。 直到三叶虫的出现,动物才第一次出现类似的阳光。 随后发生的事情令人惊叹。接下来的1000万到1500万年里,视觉的能力开启了一个被称为寒武纪生命大爆发的时期,大多数现代动物的先祖都出现在这个时期。 今天,我们正在经历人工智能(AI )的现代寒武纪大爆发 。似乎每周都会出现一种新的、令人难以置信的工具。最初,生成式 人工智能革命是由大型语言模型(如聊天) GPT) 推动的 ,这些模型模仿了人类的视觉智能。但我相信基于智能(我称之为空间语言智能)更为根本。语言很重要,但作为人类,我们理解和与世界互动的能力很大提示取决于我们所看到的东西。 计算机视觉是人工智能 的一个分支, 长期以来,它一直致力于让计算机拥有与人类相同甚至更好的智能空间。15年来,该领域发展迅速。我确信人工智能的 发展 必须以人类利益为中心,因此我将自己的职业生涯奉献给了人工智能。 没有人教孩子们如何看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄五次“照片”。到三岁时,孩子们已经看过数亿张这样的照片了。 我们从近几年的研究中得知,视觉的一个基本要素是物体识别,所以我们开始教计算机这种能力。这并不容易。有无数种方法可以将猫的三维( 3D )形状渲染成两个维( 2D )图像,具体取决于视角、姿势、背景等。计算机要识别图片中的猫,它需要掌握大量 信息,就像孩子一样。 直到2000年代,不同元素汇聚在一起,才实现了这一目标。 当时,已经存在了几十年的多层神经算法与现代图形处理单元( GPU )的强大功能和“大数据”的可用性(来自互联网、数码相机等的存储亿张图像)相结合。 我的实验室为这种融合贡献了“大数据”元素。2007年,在一个叫ImageNet的项目中,我们创建了一个包含1500万张带标签图像的数据库,涵盖22,000个对象类别。然后,我们和其他研究人员使用图像对应的文本标签训练神经网络模型,模型学会使用简单的描述一张以前从未见过的照片。这些使用 ImageNet数据库创建的图像识别系统取得了迅速的进展,有助于引发现代 人工智能的 热潮。 随着技...
聚焦中美经济报道 Focus on us-china economic&financial report,股市分析,宏观经济分析,A股,美股,港股,分享国际主流财经媒体报道,找最新深度财经分析上财税茶座 CSCZ.ORG。