在线身份认证|OCR技术用于在线身份认证的运营效果分析( 三 )


可以简单地认为,该步骤的用户流失率就几乎等同于 OCR 识别结果的错误率。因为按照风控原则,这一步骤是不能让用户手动修正的,否则就失去了身份认证的意义了,因此一旦信息识别错误最终就只能回到上一步重新来过。
流失率弹性的关键,主要取决于是否需要识别住址信息。
若仅需要识别姓名、身份证号码乃至身份证有效期,现在业内成熟的 OCR 算法已可做到 85%以上的正确率,最好的据说能做到 90%。然而如果要准确识别出身份证上的住址,OCR 的技术难度则几何级别增长,经常会识别出非法字符。幸运的是,目前除了金融、出行、用工等少数场景外,对识别住址的需求还并不普遍。
在线身份认证|OCR技术用于在线身份认证的运营效果分析
文章插图
(地址识别为非法字符)
步骤三的用户流失率,约 5%-10%:
通常来说,只要OCR在第二步中正确识别出身份证信息,就一定可以顺利通过“政府数据库”的校验。
但实际上,受限于自身的业务风控规则(如限制未成年人、特殊年龄的人、黑名单用户等,通常约 5%),以及第三方供应商的数据源和服务稳定性等原因(通常不到 5%),会导致部分用户无法通过。
其中,因业务风控规则而产生的用户损耗是无法避免的,但对第三方供应商的质量把控则是可以优中选优。
综上所述,完整的 OCR 身份认证服务做下来,用户流失可能会高达 60%(1-0.6*0.7*0.9),极限优化后也会高达30%(1-0.8*0.9*0.95),是不是会很惊人?
业务还没真正开始做呢,1/3的用户已经跑去火星了,这还怎么活?
虽然可以通过其他方式把用户拉回来再试一次,但终究是个让人害怕的运营黑洞。必须要解决才好。
从关键因素来看,需要解决的要点在于:优化拍摄身份证照片这个过程的不确定性,和OCR 识别信息(特别是大段地址信息)的准确度。如果这两个过程能够做到无损,则整个服务流程的用户流失率可以降低到75%(1-0.8*1*0.95),而且都是由于纯粹的客观因素而造成的,不会引发用户的不满,或者说对于有价值的用户,不会产生无谓的损耗。
那这两个过程解决起来的难度有多大呢?笔者现在还在请教专业人士,但就目前所闻,并不算乐观。
四、还有一些值得注意的潜在风险:黑天鹅事件随时会到来做业务不可能完全零风险,这是当然的。但我们需要知晓风险的可能来源,并提前做好一定的准备,特别是那些涉及到合规层面的隐患。绝大部分公司在实际设计和使用 OCR 身份认证的流程中,普遍存在如下两种潜在风险:
1. OCR 的识别是否在使用“SaaS 公有云服务”?若采购并本地化部署OCR 软件,那就不存在本条所说的隐患。但是因为价格较高,绝大部分公司还是倾向于选择第三方供应商提供的、按次付费的 SaaS 云服务,这就存在“个人信息保护”的风险隐患了。
将用户的身份证图片传输给这些第三方供应商,是否应该征得用户的明确同意呢?但若在流程中加入提示并等待用户选择的话,留存转化率是否会更低呢?其实,将用户信息提交给某某供应商提供的“政府数据库”去校验,也是同样的问题。
2. 是否考虑过对身份证图片的验真呢?OCR 技术说穿了毕竟只是对图片的识别和计算,如果这个图片本身就是被恶意伪造的,那 OCR 身份认证流程完全是不设防的(这里我们不考虑再加入人脸识别技术作为辅助验证手段,一方面这必然会带来更高的成本和更低的用户转化,另一方面人脸识别有自身的适用场景和安全风险问题会将本文的主题给带歪)。
然而又该如何在整个流程中加入反欺诈呢?很不幸,非常之难。如果恶意分子伪造一张身份证,单纯使用 OCR 身份认证流程是无法辨别出来的,而这种伪造成本也极其低,比如:通过覆膜将身份证上的地址和有效期改掉,或者头像换掉。