管理创业团队 创业者道德困境不包括

本文发表于2019年第29期《三联生活周刊》,_原题为《AI寻亲的进步与难题》
今年上半年,被拐或走失的人成功找到亲人的消息来自国内多个省份,得益于人脸识别技术的进步 。但是,在“科技为善”的背后,如何避免新技术的负面影响,是对技术使用者的一大考验 。采访人员/王梓辉

管理创业团队 创业者道德困境不包括

文章插图
通过新的跨年龄人脸识别技术,一些被拐卖很久的孩子找到了亲生父母
用一张10年前的照片找到他
如果一个孩子被拐了,找回来有多难?在目前相机的环境下,可能大有希望;但十年前,答案是残酷的 。
直到2017年12月,公安部刑侦局副局长陈世渠才想起自己几年前监管的拐卖儿童案 。主犯在2014年被捕前绑架了13名儿童,当年被绑架的儿童只有3名被追回 。2008年至2010年被绑架的10名儿童仍然下落不明 。据说原因是“主犯只供认3项,如果供认第四项刑事责任,可能加重死刑” 。
负责拐卖的警察不努力,他们想了很多办法 。根据专案组自己透露的历史,2015年,他们联系了中国刑警学院成员、著名犯罪外貌专家赵教授,根据他们小时候的照片,绘制出他们十几岁的样子 。专案组把这些画像带到卖孩子的广东省,给学龄儿童拍照,“用肉眼发现他们的感受是这样的” 。看了10天,专案组带回了300多张疑似照片,组织家长鉴定,最终鉴定出176个疑似物体,但最后都没有击中 。他们还试图将几十万张可能的照片中丢失的孩子的照片与肉眼进行比较,但无法一一找到 。这是寻找被拐儿童的传统方法 。
这也让唐海鹏在2017年12月提到这个案例,说腾讯在做一些跨年龄人脸识别算法,也许可以试试 。当时陈世渠在调查腾讯,而唐海鹏是腾讯安全管理部门的安全专家 。就这样,在对话发生在千里之外的广东,10名被拐儿童周围的迷雾终于被撕开 。
但是事情并没有唐海鹏想象的那么简单 。简单来说,人脸识别技术是指通过比较人脸的视觉特征信息来进行身份识别的技术 。但是我们手机中使用的人脸识别技术并没有那么难应用,因为它识别的是现在的你,你的五官在短时间内不会发生剧烈的变化 。跨年龄段的人脸识别难度要大得多,尤其是青春期,人长大了,就认不出小时候的照片了 。
获取此项目
目之后,汤海鹏回来和腾讯内部负责图像识别技术研发的优图团队交流,他才发现出了很大的问题,因为他们当时根本就不具备这个能力 。“当时我们可能也就能够做到在几百张成人照片中间,通过一张婴儿时期的照片找出一个人 。”汤海鹏对本刊说 。而这种能力显然无法满足在几十万张照片中找到一个人的需求 。
事后回忆起来,其实也只有一线希望 。但因为这个项目的特殊性,他们决定尽最大努力试试 。办法只有一个 。“就是要让机器知道,当一个人的面部随年龄演变时,不变的那些量是什么 。”研究员晓程说 。然后他们再把这些面部特征转化为对应的计算机语言 。
具体来说,这个由十几位博士组成的团队自己研发出了一套算法,对0~18岁的人脸成长变化进行了模拟建模,生成可供学习的人脸样本,然后利用深度神经网络算法让机器来学习这些人脸在成长过程中的变化 。学习的材料不好找,就用研发人员自己小时候不同时期的照片,分别告诉计算机,“这是一个人1岁的样子、5岁的样子、10岁的样子、20岁的样子” 。
还好计算机技术的进步一般是指数型的 。2018年3月,AI比对的成功率提升到了可以一试的程度,第一次比对的时刻也来了 。但没有预想到的问题出现了 。“一开始,我们拿到的照片其实是家长自己用手机翻拍的那种,我们拿过来发现信息量损失非常大,根本没办法用 。”汤海鹏回忆说 。只好又跟四川警方商量,说能不能让这一部分家长把原片送过来,没想到这个过程又挣扎了几周 。
汤海鹏说,很多家长是不愿意送原片的,因为这么多年过去了,那一张照片可能是他们唯一留下来的孩子的物品,可能没有其他任何的能够留下来的东西了,而且这些照片又是分布在四川好几个地市不同的家长手上 。但没办法,警方也只能硬着头皮去劝说家长们能够把照片提供过来 。汤海鹏现在还记得一个细节,当四川警方收集完了照片,统一拿到上海漕河泾开发区软件园的优图实验室里时,他们慢慢打开袋子,看到的是好几个油纸包裹,把油纸一层一层地拆开,里面才是那一张小小的照片 。他们再用数字化高清仪器将照片提取出来,每张照片的大小能从之前的几百KB变成10MB,终于让对比有了可行性 。
2018年4月,在由警方提供的房间里,优图团队的研究人员把那10张照片放到广东省方面提供的数据库里开始检测 。两个小时后,电脑上生成了10个文件夹压缩包,每个文件夹里有101张照片 。第一张照片是被拐儿童的原照片,剩下的100张照片是100个十二三岁左右的儿童,他们以满分100分制降序排列,分数基本都在75分以上 。“75分是万分之一阈值,80分是十万分之一阈值,85分是百万分之一阈值”,汤海鹏说,“以75分为例,如果两个人脸比对分数超过75,则这两个人脸是万里挑一的像” 。
这1000张照片被交给了四川警方,警方又找来家长一张张去看,看他们觉得哪个像,这样再删选到几十个;最终经过信息筛查,范围被缩小到了10张以内,而这个过程用了4个月的时间 。最后一个环节就是比对DNA,据说在四川省公安厅,参与打拐的警察们都充满期待,有人很乐观,猜测可能会比对上几个;一个干了多年警察的老刑侦比较保守,猜两个 。“我们当时都在祈祷,觉得如果能找到一个就已经很谢天谢地了 。”汤海鹏说 。最后的结果是比对上了4个 。

管理创业团队 创业者道德困境不包括

文章插图
27年后,走失儿童的亲人第一次通过视频连线的方式见到了已远在他乡的孩子
27年后,走失儿童的亲人第一次通过视频连线的方式见到了已远在他乡的孩子,帮助他们联结起彼此的正是跨年龄人脸识别技术
做好事背后的道德困境
第一次成功后,研究员们持续对算法进行了优化 。如晓程所说,在现实条件中,照片的质量、人脸的角度、遮挡、光线都有可能对AI的判断带来影响,而他们就要去教AI克服其他因素的影响,获得尽量多的人脸特征 。今年年初,随着AI的识别精度提升到接近96%,他们又相继比对出了3名被拐儿童 。
四川的案子之后,陆续又有几个类似的案子开始尝试使用这样的跨年龄人脸识别技术 。今年6月,深圳市警方也通过这个技术找到了一个被拐卖19年的孩子 。但一个问题出现了:这样的技术为什么还没有大规模推广到全国,只能以个案的形式一个个推进?
“它要想大规模应用起来需要一个复杂的过程,这是一个层面;还有一个层面就是这个事情本身就很复杂 。”汤海鹏用好几个“复杂”不断在强调这件事棘手的地方 。从理论上来说,如果把全国人的DNA都检测比对一遍,拐卖儿童的案子不会有一件破不了,但人人都知道,这在实际上是不可能实现的 。
复杂的不是技术,是难以落到实处却又更加触及根本的伦理道德难题,这也让看起来很实用的新技术推进起来有些艰难 。“这个系统虽说现在已经成熟了,但如果想在全国推广去用,这个过程会很长,因为要涉及很多要协调的事情,你看我们光一个省的一个案子就协调了好几个月的时间 。”汤海鹏说 。
这是技术进步给整个社会带来的全新挑战 。传统打拐的方法仍以实地探寻及画像识别为主,基本的需求协调都在政府部门内 。但用AI进行跨年龄的人脸识别会牵扯到其他社会领域的数据使用,比如寻找年龄在18岁以下的儿童需要用到教育部门的数据,而使用这些数据的可能是一家商业机构,这些协调与管理工作是整个监管层面的空白地带 。“比如教育部门也会担心,他们虽然采集了那些儿童的数据,但是并没有一个法律规定说哪些事情是明确可以做,哪些事情是明确不可以做的 。”一位参与了这次寻亲行动的人士对本刊说 。
这种难题此前没有过成熟的解决方案,只能试着往前走 。有些决策的过程因为敏感性不便流出 。“这里面有很大的伦理道德难题,我们其实压力非常大 。”汤海鹏现在回想起来语气还有些沉重 。有时道德难题要比技术难题更棘手,“我们只能尽量走得谨慎一些,尽量去避免发生一些负面的影响” 。
在那4个比对上的结果出来后,整个寻亲团队在狂喜之余却又不得不开始了更激烈的讨论,他们试图对可能出现的负面影响做出周全的准备 。“比如我们得到了比对出的前10个结果,但我们该如何去获得他们的DNA?”汤海鹏反问道 。再比如,即使比对出了4个被拐儿童是一个毋庸置疑的好消息,但因为只找到了全部10个被拐儿童中的一部分,这时该不该通知那4个家庭的父母?因为消息一旦流出,可能会影响到后续的寻找工作;但找到了被拐儿童却长时间不通知他们的父母,这是否又有道德争议?“其实这个事情看起来是‘科技向善’,但你要真正去做到科技向善真的不是那么容易 。”
“我觉得这些争议主要是因为新技术迅速发展,使得人们对于目前很多的技术工具该如何使用都不是很有把握 。”针对这种情况,中国人民大学法学院副教授兼未来法治研究院执行院长张吉豫在接受本刊采访时如此评价道 。作为人工智能法律方面的专家,她告诉本刊,在这种基于公共利益的、具有高度正当性的应用场景下,是不是可以在原有个人数据使用的规范上做出些许平衡的举措,也是当前学界探讨的重要主题 。
一些母亲就对本刊表示,如果她知道自己孩子上学用的照片被拿去检索被拐儿童,她的心理当然会不太舒服 。而张吉豫的观点是,在保护个人隐私的基础之上,一定要对公共利益进行一定的平衡 。“一般来讲,‘比例原则’会是一个很重要的衡量指标,就是看这种新的技术是不是为我们社会带来了新的价值;如果带来了新的价值,它又损害了其他方面的一些利益和价值,那就要看这个手段是不是必要的 。”
“在新技术不断发展的情况下,我们的伦理道德也需要大家更多地去发展和适应,对这方面的讨论也可以更迅速一点 。”她总结说 。
打通AI寻亲平台
在汤海鹏的设想中,如果要为AI寻亲设想一种常规的使用方法,也许打通全国救助站的系统是一个相对可行的办法 。“因为上面基本都是救助站本身的照片以及主动上传寻人的照片,所以这个数据是没有太多争议的 。如果能把我们的技术匹配起来,其实我觉得是有机会常规化的 。”
但这种应用场景其实面向的又是另一个群体——走失人群 。“因为被拐儿童除非对小时候的记忆印象很深刻,否则他们不会主动上传自己的照片到这些平台上,就没有对比的资料了 。”汤海鹏说 。
目前全国主要的走失人群寻找平台是民政部旗下的“全国救助寻亲网”,上面有全国各地救助管理机构发布的受助人员寻亲公告 。事实上,他们也已经上线了“人脸对比寻亲”的功能,而他们使用的人脸识别技术是百度提供的 。
2016年,民政部与百度建立了合作,随后百度为民政救助寻亲系统提供了一台部署了人脸识别技术的服务器 。一方面,它在民政救助管理系统内增加了人脸识别功能,被救助人员进入救助站之初,工作人员就可以上传其照片与百万级历史救助数据进行人脸比对,如曾经接受过救助,就能根据记录快速识别身份,帮助走失人员更快回家 。另一方面,家属和志愿者也可以上传走失人员照片到系统里,一键与救助站内全部滞留人员照片进行实时比对,系统会给出相似度排名较高的结果 。
过去5年,来自山东的家庭妇女谭英换作为寻亲志愿者,已经帮助800多个走失者找回了家庭 。她主要靠的还是“笨办法”,在相关寻亲群里收到家属发来的照片或视频信息后,她就会到全国救助寻亲网这样的网络平台上寻找可能的对象 。“走失人员的家属不会上网的比较多 。”谭英换说,“他们好多都是年纪比较大的,或者是在农村的那种 。”如果AI人脸识别没有得到相似的结果,谭英换会自己再去找一遍 。主要技巧就是仔细对比五官和脸形,“你再怎么变,这个耳朵它总不会怎么变吧?”如果看到有疑似的对象,就打电话过去询问细节,这也让她每个月的话费超过了300元 。
虽然谭英换有时会觉得AI识别出的相似度没那么高,不过AI人脸识别这两年还是帮像她这样的寻亲志愿者节省了不少工夫 。2016年,陕西人张军宏在父母陪同下到北京就医,因为患有间接性精神疾病,在就医过程中,张军宏于8月7日走失 。在长达8个月的寻找期间,两位年过七旬的老人一直守在路口,拿着寻人启事向路人不停的询问 。2017年4月,在志愿者的提醒和帮助下,将仅有的身份证照片上传到AI寻人平台后,系统给出了相似程度较高的8张照片 。张父张母经初步查看,确定名叫“陶家俊”的人应该是自己的儿子张军宏,并最终前往北京昌平中西医结合医院救助站成功认亲 。
根据谭英换的经验,全国救助寻亲网的AI人脸识别系统一般能找出的都是近几年失踪的,要是走失已经十几二十多年的就很难了 。“因为有的人走失很多年了,年轻的时候的照片和收留时的照片变化得比较大 。”谭英换说 。
但技术总是在进步 。2017年3月份,百度与专业寻亲机构“宝贝回家”展开了合作,也开始将跨年龄的人脸识别技术应用于寻找走失儿童中 。首批两万多条寻亲图片数据接入系统进行对比评测,初步筛选出了30例疑似案例,并已经在4月份成功找到了第一个走失的儿童,那个案例中的“儿童”已经走失27年了 。
陈士渠说,这些儿童被找回,“充分证明人工智能对于查找被拐多年儿童能够发挥重要作用” 。而随着社会监管的加强,目前全国发生的盗窃、抢夺、拐骗等方式拐卖儿童的案件基本可以做到快侦快破 。就在近期,发生在浙江的“女童章子欣失踪案”也在6天内被侦破 。
【管理创业团队 创业者道德困境不包括】作为曾经的公安工作者,汤海鹏将人脸识别技术的进步称作“DNA技术出现后的第二次技术突破” 。他唯一提醒的是,在做这种技术创新的时候,一定要记得“技术是双刃剑”这句老话 。“对我们来说,怎么去运用技术会是一个永远的考验 。”