BMG
在不丹这个小国,数十名数据专家在喜马拉雅山雄伟山峰环绕的办公室里完善人工智能模型。iMerit 的员工并不是来训练人工智能完成一些基本任务的,比如在图片中识别“窗台上的棕色猫”。相反,他们正在教算法人类眼睛的解剖结构或如何检测地理空间地图的变化。
iMerit 得到了三位硅谷亿万富翁的支持,是越来越多致力于构建更为复杂、可货币化和可靠的人工智能的公司之一。到 2030 年,人工智能行业有望为全球经济增加近 20 万亿美元。随着模型变得越来越智能,大企业越来越希望利用它们的力量来完成高度专业化的任务,从而催生了数十家致力于为金融、医疗保健和国防等领域定制应用程序的数据服务初创公司。
风险很大。尽管人工智能热潮席卷了硅谷,但人们仍然在质疑这项技术是否真的有用,足以让世界各地的企业为其买单,并确保人工智能模型开发者能够盈利。当然,英伟达公司通过销售人工智能芯片已成为全球最有价值的公司。但该公司最大的客户,包括微软公司和Alphabet 公司,仍在因构建更先进的人工智能系统的巨大成本而亏损。
iMerit 创始人兼首席执行官拉达·巴苏 (Radha Basu) 将人工智能比作打造互联网、手机和其他现代科技平台的软件程序员。这位白发苍苍的企业家表示:“我们是人工智能革命的程序员。”她正准备进行下一轮融资。
让人工智能在无关、敏感甚至危险的行业中达到高级水平并非易事。这项工作需要大量人类专家愿意在日常工作之外,通过技术领域的训练和改进模型来增加自己的工作量。
在肯尼亚,一家初创公司正在开发扫描灌木丛以寻找偷猎者踪迹的技术。在哈萨克斯坦,医学专家正在教模特识别肺癌的早期阶段。在印度、韩国、越南等地,每小时收入 65 美元的语言学家正在帮助模特精通英语以外的语言。
iMerit 在印度、不丹和新奥尔良拥有 5,000 名员工,23 岁的 Yeshi Wangmo 来自一个农民家庭,多年来一直在掌握一项任务:在广阔的玉米和棉花田图像中正确识别杂草和杂物。Wangmo 和她的同事们身着色彩鲜艳的不丹 gho 和 kira 披肩,帮助约翰迪尔公司 ( Deere & Co.)子公司 Blue River Technology 等公司建立算法,提高喷洒农药和化肥的准确率,从而减少高达 90% 的使用量。
数据标签解决方案公司Datasaur Inc.的创始人兼首席执行官 Ivan Lee 表示:“我们看到公司正在解决更先进但也越来越小众的问题。”该公司的客户包括Netflix Inc.和美国联邦调查局。“客户可能需要在坦桑尼亚长大的牙医或来自法国的建筑师,”Lee 表示,他的团队主要在印度尼西亚工作。
数据准确性是他们工作的指导方针。两年前 ChatGPT 刚推出时,批评者很快就指出了该平台的缺陷和失误。从那时起,他们就聘请了数十名人类专家进行质量控制。这项工作非常艰苦。像 Wangmo 这样的数据标注员会仔细研究扫描件、照片、视频和文本,以准备就绪的 AI 模型。他们的目标是改进在海量数据集上训练的生成式 AI 系统,以分析或创建新内容。完善它们可以消除 AI 的潜在能力与其在现实世界中的实际表现之间的差异。
研究公司 PMI Cognilytica 的董事兼总经理凯瑟琳·沃尔奇 (Kathleen Walch) 表示,这种专业化在涉及军事情报等高风险领域越来越重要。
这项工作的低级版本并不新鲜。数据服务行业大约在二十年前开始出现。当时,居住在菲律宾和印度等地的标注员主要标注小型数据集,这些数据集支撑着语音助手的语音识别或购物网站上的搜索引擎等。批评者担心人工智能创造了一个可以被剥削的底层阶级,并指出该行业某些领域的工资徘徊在每天几美元左右。
但多年来,随着人工智能的进步,许多简单的事情现在都已经实现了自动化。需求已转向招聘专家并支付更高的薪水和费率,尽管这些薪酬仍远低于硅谷数据科学家的薪酬待遇。
知名数据标签公司 Indika AI 的创始人兼首席执行官哈迪克·戴夫 (Hardik Dave) 表示,在印度,一名训练 AI 模型的放射科医生可能只需工作几个小时就能赚到 10 万卢比(1,200 美元)。他说,普通承包商每月的收入约为这个数字的三分之一。
如今,销售标签服务的初创公司吸引了大牌投资者。今年夏天,最大的参与者 Scale AI 从Meta Platforms Inc.和亚马逊公司筹集了资金。该公司的估值接近 140 亿美元,远远超过了 Mistral 和 Cohere 等知名人工智能模型制造商。2023 年,红杉资本的 50 强人工智能公司名单中有 4 家标签初创公司,而前一年只有 1 家。其中一家名为 Labelbox 的公司得到了 Andreessen Horowitz 和 Kleiner Perkins 的支持。另一家公司 Snorkel AI 由 Alphabet Inc. 的风险投资部门资助,估值为 10 亿美元。
更广泛地说,根据旧金山市场研究公司 Grand View Research 的数据,到 2024 年,数据标签市场的价值将接近 200 亿美元,预计到 2030 年每年将增长约 20%。
失误的后果也更为严重。贴错标签的车架可能会让企业损失数百万美元,引发诉讼,甚至导致死亡。癌症扫描人工智能工具或自动驾驶汽车是两个敏感领域。
“不太准确的人工智能可能会出轨,”总部位于洛斯加托斯的 Sama 首席执行官温迪·冈萨雷斯 (Wendy Gonzalez) 表示,其客户包括福特汽车公司和沃尔玛公司。“企业承受不起这种后果。”
以麻省总医院与 Centaur Labs 之间的合作为例,Centaur Labs 是一家数据标签初创公司,拥有 50,000 名自由职业者,业务遍及美国、哈萨克斯坦和越南等国家。
近年来,总部位于波士顿的 Centaur Labs 改进了医院使用的产品,逐渐引进了技能更高的数据专家。有些与日常疾病有关。(这家初创公司正在开发一种打鼾检测算法和一款用于睡眠呼吸暂停的应用程序。)其他人则涉足更严肃的话题,比如开发能够更准确地识别 CT 扫描中肺结节的人工智能。上个月,这家初创公司宣布从 Accel、Y Combinator 和其他公司获得注资。
波琳娜·皮利乌斯 (Polina Pilius) 是哈萨克斯坦的一名放射科医生,她负责 Centaur Labs 承包商团队的管理工作。她说,现在的工作范围越来越窄。她说,仅仅检测肺结节是不够的。客户越来越希望有专门的功能来减少误报数量并跟踪结节随时间的增长。在不偷工减料的情况下降低风险是最佳方案。
“医疗数据注释是一个复杂的过程,不能容忍仓促、无能、疏忽或过度削减成本,”Pilius 说。
尽管所有事情都可能出错,但人工智能的支持者认为,训练模型来解决高风险领域的复杂问题总比什么都不做要好。他们说,在许多情况下,这样做只有好处。
Labelbox 是一家位于旧金山的初创公司,其客户向管理数十万辆卡车的公司销售行车记录仪分析数据。在过去一年中,Labelbox 数据专家训练了人工智能机器人,使其能够更熟练地监测驾驶员是否昏昏欲睡或醉酒。一旦检测到,车队运营商就会收到警报并联系驾驶员。
Labelbox 首席执行官 Manu Sharma 表示,这只是一个例子,表明模型的作用不仅仅是削减成本或提高效率。他说,最好的技术是拯救生命,而数据贴标员正处于推进人工智能能力的最前线。
他们“正在创造一个让他们的专业知识更容易被利用并能造福社会的世界”,他说。
评论
发表评论