算法|一个智能外呼机器人的诞生人工智能|总决赛|大赛|赛题

文章插图

技术基础：智能外呼机器人核心是AI的基础技术，赋予产品识别语音、语义理解、合成语音的能力，简单来说就是如何准的确地识别客户所表达的意思，一般称作识别意图。而另一方面，Fs、sip构建的话务服务赋予产品对外通话的能力，可以拨通客户的手机进行交流。
资源许可：构建的机器人服务需要耗费一定的资源，一般将整个过程分为话务、TTS、ASR、机器人方面的资源。如果要完成完整的外呼服务，一般是1:1的关系。如果是saas产品，可以将整个许可打包成一个商品出售。按这样区分可以清晰划分产品框架，后续的运维、扩容也十分方便，也利于计算成本、产品定价。
话务模块：话务模块是管理话务能力方面的功能，语音通讯、录音等。
语音服务：该模块是管理语音方面的能力，包括ASR服务、TTS服务。也会有一些产品将这些能力纳入话务模块。
算法模块：算法模块是外呼机器人的核心能力，需要完成数据的处理、模型的构建与训练等，让机器人具备识别能力。
对话管理：机器人识别客户的意图之后，需要做出一定的回应。怎么说、说什么由对话管理去控制。
运营管理：基于上述模块的协作完成一个外呼服务的构建，对于业务人员来说则需要在运营层面去管理外呼名单、外呼策略等，让机器人运转起来。

对产品有全局的架构思维，有助于全面地看待问题，无论是产品设计还是后续的运营都是很有帮助的。
二、业务流程智能外呼，简单来说就是模拟人的对话能力，教会机器人去识别语音内容，然后根据内容做出应答。在运营管理发起外呼动作，整体的业务流会经过以下几个步骤：

文章插图
1.由话务服务出局通话请求，拨通客户的电话后，收集客户语音并实时返回至语音服务模块；
2.语音服务将客户的语音经过ASR处理，输出客户的文本给到算法模块；
3.算法模块经过算法分析，识别客户的意图，了解客户想表达的意思。有一点需要注意的是，不一定非要语音才能分析意图，比如客户静默太长时间，可输出一个静默的意图，让机器人再次唤醒客户对答。也不一定是对文本内容直接分析，比如机器人未播完话术时被客户打断，这时候应该输出一个打断的意图，停止播报，让客户说完再识别。各种各样的情景，跟人与人之间的对话情景对应；
4.得到客户的意图后，对话控制根据对话流程，输出机器人需要对答的内容。对答文本流转至TTS合成语音（如果文本不涉及变量，可以一次性保存为录音，不占用TTS资源），或者调用已录好的音频，传至话务服务模块，对客户输出语音。然后再次得到客户语音，循环这个过程直至结束后将对话数据返给外呼管理模块，进行后续的分析。
三、产品设计1. 话务服务模块依托于FS强大的拓展性，搭建一个电话软交换平台，可对接运营商的sip线路，也可用网关设备搭建话务中心，提供呼叫控制、资源分配、录音、计费等能力。一般大企业会有独立的话务服务，专供需要的业务系统接入，而自建外呼服务或者构建saas产品则需要从0到1去搭建了。
2. 语音服务模块ASR、TTS是基础底层技术，自研成本非常高，而且经过长期的发展也很成熟，市面上有科大、阿里云、腾讯云等厂商的服务。一般有两种模式，一种是接入云服务，按调用次数收费，如果有开放的开发环境建议使用这种模式，可以随时升级调优。另外一种是买断服务，购买完整的语音服务，包括模型、资源，一般在较为封闭的开发环境使用，比如银行业务。但这种模式成本较大，而且调试升级不方便。