机器|谈一谈数据标注中,需要注意的问题?( 二 )



不同的应用场景对应不同的标注需求 , 比如自动驾驶领域主要涉及行人识别、车辆识别、红绿灯识别、道路识别等内容 , 而智慧安防领域则主要涉及面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等内容 , 这些还是需要数据标注行业的日积月累 , 才能实现最终的机器学习
04数据标注需要哪些角色
数据的质量直接会影响到模型的质量 , 因此数据标注在整个流程中绝对是非要重要的一点 。 一般来说数据标注部分可以有三个角色:
一般来说 , 数据标注部分可以有三个角色
1)标注员:标注员负责标记数据
【机器|谈一谈数据标注中,需要注意的问题?】2)审核员:审核员负责审核被标记数据的质量
3)管理员:管理人员、发放任务、统计工资

只有在数据被审核员审核通过后 , 这批数据才能够被算法同事利用

05数据标注工具有哪些?
图片/视频标注工具:Labelm
支持对象检测、图像语义分割数据标注、支持矩形、圆形、线段、点标注、支持视频标注、支持导出VOC与COCO格式数据实例分割

音频标注软件:Praat语音学软件(Praat:doing phonetics by computer)
可以跨多个平台使用 , 在Windows、Macintosh、 Linux、FreeBSD、Solaris、Chromebook等不同的操作系统 。 它可以对语音信号进行采集、分析及标注 , 还可以对其进行滤波和转换

文本标注工具:doccano

doccano是一个开源文本标注工具 , 提供了文本分类、序列标记以及序列到序列任务的标注功能 。 因此 , 可以分为情感分析、实体识别、文本摘要等标注任务创建带标签的数据

06数据标注的一些经验之谈
(1)标注数据时 , 要考虑数据的扩展性 , 比如:目标检测可以考虑标注四个点 , 而不是一个矩形框
(2)数据标注规范以求方、质检方为原则 , 根据实际需求及时更新完胜规则