张力|人工智能训练师:我教AI如何“更懂”人类

张力|人工智能训练师:我教AI如何“更懂”人类
文章图片

电脑前 , 张力文向采访人员演示一个火情识别算法模型的数据标注及模型训练的过程 。
【张力|人工智能训练师:我教AI如何“更懂”人类】智慧安防、智慧物流、智能交通……人工智能技术正让我们的生活更便利 。 而让人工智能(AI)“更懂”人类的新职业——人工智能训练师在当中起到十分重要的作用 , 相当于人工智能的教练 。
人工智能训练师在2020年正式成为新职业并纳入国家职业分类目录 。 随着去年底该职业的国家职业技能标准颁布 , 业内开展职业培训和人才技能评价有了基本依据 。 人社部发布的报告显示 , 经测算我国人工智能人才缺口超过500万 。 近日采访人员采访了解到 , 在广东 , 人工智能训练师的需求旺盛 , “现在有做AI的公司基本都有自己的人工智能训练师 , 随着人工智能在各个应用领域的不断拓展 , 数据标注员等工种存在较大的人才缺口 。 ”业内人士说道 。
策划统筹/赵亦平、何颖思
文/广州日报全媒体采访人员何颖思
图/广州日报全媒体采访人员骆昌威
新职业档案:人工智能训练师
使用智能训练软件 , 在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员 。
主要工作任务:
1.标注和加工图片、文字、语音等业务的原始数据;
2.分析提炼专业领域特征 , 训练和评测人工智能产品相关算法、功能和性能;
3.设计人工智能产品的交互流程和应用解决方案;
4.监控、分析、管理人工智能产品应用数据;
5.调整、优化人工智能产品参数和配置 。
训练:“喂数据”图片数以万计 还要避免AI“背题”
给人工智能“喂数据” , 让其“长智慧”是人工智能训练师的主要工作 。 日前 , 采访人员在天翼数字生活科技有限公司见到了正在给人工智能“喂数据”的张力文 , 研究生毕业后他便进入公司从事机器视觉相关的算法研发工作 , 至今已有七年时间 。
“我的日常工作主要包括人工智能需求分析、数据标注、算法开发以及算法调优等 , 其中数据标注和算法开发是最主要的工作 。 ”电脑前 , 张力文向采访人员演示了一个火情识别算法模型的数据标注及模型训练的过程 。 只见他在电脑用标注工具将图片中的火焰逐一圈出来 , 并标注为“fire” , 标注一定数量后将这些图片数据“喂”给人工智能学习 , 学习后进行测试 , 再逐张查看人工智能识别火焰的结果是否正确 。 张力文发现 , 人工智能将图片里的黄色盒子误判成“火焰”了 , 于是他把该黄色盒子重新标注为“非火焰” , 对算法进行调优 , 再对人工智能进行迭代训练 , 如此往复……
每训练一次 , 系统会自动生成一次测试结果 , 在训练两三百次之后形成有多个指标结果的“loss曲线”图 , loss值是判断“智能还是智障”的关键指标 。 “我们主要查看两个指标来判断人工智能是否需要重新学习 。 ”张力文说 , 一般来说他们会查看人工智能“训练集”和“测试集”的正确率 , 如果训练集数据正确率高 , 但测试集的低 , 那么说明人工智能存在“背题”的情况 , 需要再次学习 , 如果两者正确率都高 , 说明人工智能已经“学会” 。
张力文介绍 , 一个算法模型的训练 , 少则需要5000-10000张图片数据 , 多则要几万张甚至几十万张图片数据 , “像目标检测一般一万张图片数据即可 , 但识别类算法 , 比如人脸识别 , 通常要几十万张图片数据 。 ”不过在数据标注阶段 , 如今已有智能标注帮忙 , 训练师在智能标注后再进行个别的人工标注即可 , 大大减轻人工标注的工作量 。 这些图片数据如何来?张力文说 , 网上开源数据一般可满足人工智能的基础训练 , 但针对性训练的数据需要购买或搜集 , 有时候甚至需要他们自己拍摄 。