数据|行业分享:文本数据标注的整体流程、类型与应用场景( 二 )


数据|行业分享:文本数据标注的整体流程、类型与应用场景
文章插图


05语义标注语义标注既可以改进产品列表,又可以确保客户能够找到想要的产品。这有助于把浏览者转化为买家。语义标注服务通过标记产品标题和搜索查询中的各个组件,帮助训练算法,以识别各组成部分,提高总体搜索相关性
数据|行业分享:文本数据标注的整体流程、类型与应用场景
文章插图

不同文本数据标注示例

文本数据标注的流程介绍数据标注一般都分为采集、清洗、标注、质检等几个步骤,文本数据标注也不例外,大致流程为处理、标注(线上标注、线下标注)、质检、验收,数据处理和数据交付。
数据|行业分享:文本数据标注的整体流程、类型与应用场景
文章插图

具体到各个步骤,操作细节如下:
(1)预处理:根据数据的规范要求,对数据进行算法的初步处理
(2)标注:根据项目要求,可以将标注分为线上标注(数据+平台)和线下标注
①线上标注:将源数据上传到“数据+平台",通过互联网进行操作
②线下标注:通过线下小工具或线下文本(TXT、Excel等)进行操作
(3)质检:根据数据合格率要求,由理解定义规范的人员对已标注数据进行抽查
(4)验收:由数据质量中心对质检合格数据进行再次验证
(5)数据处理:利用技术处理成客户需要的格式(如JSON、UTF-8文本或Excel等)
(6)数据交付:数据加密后交付客户

文本数据标注的应用场景文本标注应用范围很广泛,具体来说,文本数据标注应用比较多的场景包括新零售行业、客服行业、广告行业、金融行业和医疗行业等:应用类型主要有数据清洗、语义识别、实体识别、场景识别、情绪识别以及应答识别等。

01客服行业在客服行业文本标注主要集中在场景识别和应答识别,客服基本可分为人工客服和电子客服,其中人工客服又可细分为文字客服、视频客服和语音客服三类
数据|行业分享:文本数据标注的整体流程、类型与应用场景
文章插图

以不少电商平台的智能客服机器为例,当用户在购物遇到问题,需要与机器人沟通交流时人工智能将根据用户的咨询内容且对应的场景,然后让用户选择更细分的应答模式,再定位到用户的实际场景中,根据用户的具体问题给出对应的回答,整个过程就好比是把用户的问题的用漏斗状的筛子过一遍

在初期建立应答体系的时候,需要对海量用户咨询语言所产生的文字材料进行分类,把应对的用户咨询的问题事先标记好,然后放进对应的模型中,例如我看到的这台电视电脑CPU是什么型号

在这一步中,数据标注的具体工作就是给句子的场景打标,将用户问题细分应对的场景中,在进行这种标注时需要人工智能非常熟悉本行业的业务逻辑数,其实这就是建立机器人的应答知识库,机器人在收到用户发出的指令时,需要识别这些指令和哪个细分问题的,你额度最高,然后选取哪个问题的答案作为给用户的答案

02新零售行业新零售是指个人、企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。

在此过程中,需要对客户的问题进行精准定位,既需要对客户的问题进行量身定制,又需要考虑多数客户的共性要求,这就需要借助文本数据标注的方法,将顾客的相应问题做出标记。