今年3月,杨浦区与字节跳动旗下火山引擎共建的火山工场开业,近10家数据标注企业入驻产业园。
在人们惯有印象中,标注行业是赛博空间的“流水线”。给数据“打标签”的工作在线上就能完成,并不依赖具体哪座城市。然而,资深从业者并不这样认为——上海颐高智慧人工智能有限公司副总裁段淑伟说,上海是高端标注行业的理想之城。
当人工智能技术向医疗、金融、自动驾驶、具身智能等领域深入推进,数据的复杂程度大幅跃升。上海的专业人才密度、企业需求强度与生态协同程度,构成了对高端数据标注行业的吸引力。“入驻后,企业将作为集团数据标注业务全国总部,年业务量1000万左右。”他说。
人才密度
在段淑伟看来,人才是企业选择上海的首要原因。
数据标注是对数据进行添加标记、说明、解释、分类和编码的过程,也是将人类对物理世界的经验和理解向机器“传授”的过程。
以具身智能为例,训练中首先由人工操控机器人完成舞蹈、炒菜、打扫卫生等一系列任务。机器人身上搭载多个摄像头,采集完成任务过程中的动作画面作为数据。这些不能被机器直接理解的数据,会被打包成各种“业务包”发给标注团队。标注员将连贯的动作逐帧拆解,通过自然语言描述每一帧动作后,机器才能学习这些数据。
如果说标注员是机器学习的“教练”,随着近年来模型能力快速提升,标注业务的内容正在从通识领域的经验转向各个专业领域的知识。比如,医疗影像标注需要专业知识以识别病灶,多语种标注业务需要高学历翻译人才。
段淑伟认为,数据标注正在从劳动密集型向知识密集型转变。不仅对从业者的专业要求越来越高,还有向各行各业“抢人才”的趋势。一些高端标注业务时薪超400元,许多资深标注师来自其他行业,“白天照常上班,晚上兼职标注。”
企业需求
此外,头部AI企业需求让不少高端标注“不得不来”。
在云工厂大楼9层,办公空间一分为二:一侧是颐高智慧的标注总部,另一侧是火山引擎自建的L4级别数据标注基地。
L4是火山引擎保密级别中的最高级。“对头部AI企业来说,数据是其核心资产。涉及核心业务的重要数据,头部企业会严防数据泄露。”据介绍,在行业内,一家标注供应商很可能承接两家头部企业的标注业务,二者互为竞品。一旦某家企业用于模型训练的重要数据被对家掌握,可能造成重大战略损失。许多头部企业大多自建标注基地,业务启动后不接入外网、不接待参观,甚至不能携带手机进入工区。
不同标注团队擅长的领域不同,一家头部AI企业的供应商库中通常有众多数据标注团队。因此,围绕头部AI企业,往往会形成一些相对集聚的高端标注生态。“以颐高智慧为例,承接火山引擎业务的人员在客户的工区上班,承接其他业务的人员在自己的工位上班。”
生态协同
标注行业的另一个特点,是强信任、强协同。
“行业内客户与标注团队,有点像总包与分包的关系。”段淑伟说,由于标注业务通常数据量巨大、交付时间又紧,单一标注团队往往难以独自承接客户需求。客户会选择一家长期信任的供应商作为总包,总包供应商再从领域内挑选业务能力优秀的分包商以及兼职人员,共同完成客户需求。
以颐高智慧为例,企业目前员工有数百人,储备的合作企业和兼职人员则共计上万人。
数据标注的准确性,选择标注团队的主要指标。段淑伟说,如果标注的准确率不足,会对客户投入巨额算力训练的模型能力造成显著影响。因此,行业非常重视信任关系和协同关系。“我们必须监管供应商表现,如果合作团队表现不佳,自身同样无法获得客户信任。”
段淑伟认为,强信任、强协同或许将成为上海高端标注的一大优势。杨浦区与火山引擎共建的火山工场,既有政府的支持实现物理集聚,又能依托火山引擎获得技术赋能,有望催生一个高品质的产业生态圈。客户与同行可以大幅降低信任成本,快速彼此“锁定”,持续释放市场需求,共同推动产业规模增长。
原标题:《为何说上海是“高端标注”的理想之城?》
栏目主编:唐烨
来源:作者:解放日报 肖彤