黑科技应用论 | 数字经济进入新阶段声纹识别赋能行业服务升级

资讯零壹财经零壹财经 2021-11-29 阅读：10870

关键词：声纹识别 人工智能 数字经济 赋能

鉴于声纹识别的独特优势，声纹识别正在越来越广泛地应用到消费支付、金融、公共安全等领域中。

在新冠疫情的推动下，能大范围推广使用的数字经济手段逐渐成为行业主流发展方向。具体来看，在人脸、指纹、虹膜等生物信息相继成为个人ID的一部分后，声纹识别自然占有一席之地。

疫情中契合“无接触”理念的声纹识别技术在防控上大展身手，伴随大数据、人工智能等前沿技术的加速落地，有望推动更多场景升级迭代。

是国内领先的人工智能科技公司，自主研发了人工智能、数据决策、音视频通信、机器人、区块链等系列产品。目前，其在声纹识别上的应用已经十分成熟，尤其是自研了多模态生物防伪与安全平台。

图1：多模态生物防伪与安全平台界面

发展优势明显或成下一个风口

由于每个人的发音器官都不尽相同，因此在一般情况下，通过声纹识别能够有效区别不同的人的声音或判断是否是同一人的声音。相较于其他生物识别，声纹识别具有以下优势：

一是使用方便。蕴含声纹特征的语音获取方便、自然，声纹提取无需拍照或生理接触，因此使用者的接受程度也高。

二是获取成本低。获取声纹的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备。

三是难以伪造。声纹蕴含于人的语音当中，而语音是千变万化的。即便人两次读相同的内容，也不可能发出完全相同的声音。正是声纹这种“蕴不变于千变万化之中”的特性，使得声纹特征更加深层、难以琢磨，伪造起更为困难，因而认证强度更高、更安全。

四是隐私性弱。在一般的大众认知中，人们在很多场合下往往不愿意被拍照或者按手印，但采集一段随机跟读的声音，对于大众更加容易接受。

鉴于声纹识别的独特优势，声纹识别正在越来越广泛地应用到消费支付、金融、公共安全等领域中。

人工智能科技公司“中关村科金”认为，在数字经济突飞猛进的关键时期，各家科技公司以及金融机构应在人脸识别、声纹识别等多种“无接触”“数字化”技术上进行布局，提供更加智能、高效、安全的金融服务，增加内生动力和发展后劲的同时，推动行业转型升级。

图2：声纹识别领域研究思路图

当前，声纹识别在金融领域多应用于手机银行、反欺诈、信贷风控等方面。在移动端的登录、取款、转账等场景下，利用基于声纹识别的用户身份验证，能够达到提高金融服务安全性，提升用户体验的效果。

机遇与挑战并存科技公司大有可为

声纹识别一直是一个富有挑战性的领域，在应用中还存在一些不足。由于发音是一个复杂的生理和物理过程，所以每个人的语音声学特征虽然有相对稳定性，但是也会有一定的变异性，这些都将使得识别过程变得复杂，包括说话人之间语音特征的区别和说话人本身语音特征的变化。说话人之间的区别包括不同的声带生理特征，受教育程度的不同、用词区别等，而说话人本身语音的变化包括个人年龄、身体状况、情绪的影响等。另外在语音传输过程中还存在着信道差异、噪声环境和多说话人识别等问题需要解决。

在金融机构的实际应用场景中：一方面要考虑不同场景应用的便捷性，另一方面又要防范某些不法分子对声纹系统攻击。

为了更好地解决金融机构的实际问题，中关村科金自主研发的多模态生物防伪与安全平台，从声纹识别的抗噪声、抗时变、跨信道、多说话人分割、防攻击等多个方面，融合VAD（语音活动检测）和DCCRN+深度学习降噪技术，为声纹识别的实际应用进行全方位的技术研究。

图3：多人会议身份自动识别

针对声纹识别应用过程中需要大量标注数据，中关村科金研发了少量标注数据下的金融场景声纹确认方法和一种半监督金融场景声纹确认方法，以此提升深度学习网络依赖大量有标注数据的问题。同时，其提出了一种声纹确认网络蒸馏方法和一种基于ResNet-FPN金融反欺诈场景声纹确认方法，以此缓解当前深度学习网络效率较低的问题。

中关村科金采用动态加噪和DCCRN+深度学习降噪技术以提升声纹识别的抗噪声能力，提出了一种域自适应方案的鲁棒声纹识别方法以此提升跨信道时声纹识别的鲁棒性。另外，还研发了应用transformer相关框架，并结合深度自监督聚类损失，有效提升了分割准确率，并提升了网络效率的一种说话人分割方法。

中关村科金通过多种技术方法，提升了声纹识别在不同场景应用下的便捷性和准确性要求。

图4：某应用场景模拟流程图

声纹识别防攻击能力主要的问题是面临的攻击环境复杂，模型训练所需的数据采集成本较高，周期过长，且泛化能力较差。中关村科金表示：“提升单一防攻击能力的泛化性和便捷性是技术专研的必然要求。同时像银行等高安全等级需求的企业，单一生物特征的防攻击能力较差，多模态生物识别体系将是技术发展的趋势和必然结果。”

中关村科金的多模态生物防伪与安全平台则整合了人脸识别、声纹识别、活体识别等技术能力。

从产品设计的角度，其主要是通过策略手段提升攻击的门槛。采用随机数字动态口令的方式，比如在验证的时候，随机显示6到8位数字，要求验证者在5秒内读完数字，超过5秒后则自动换一组数字，采用内容与声纹双重验证的方式以提高被攻击的门槛。

从技术的角度，为了克服重放攻击的设备和环境差异，中关村科金提出了基于声学环境一致性重放攻击检测方法，整合人脸识别、活体识别等技术，从特征层面进行融合，解决现有系统各模块简单堆叠导致的效率低，互相隔离的决策方式。

保护安全的利器

在金融行业中，最看重的就是高精度和高性能。中关村科金指出，多模态生物防伪与安全平台中的声纹识别技术主要是在提升识别的准确性和效率两方面。

具体来看，中关村科金的声纹识别技术满足了金融服务所需的实时性、精准性、高效性。在科技专利和声纹识别技术领域的研究成果基础上，多模态生物防伪与安全平台保留了文本无关声纹识别技术的实时性和便利性优势，采用了以深度神经网络为主的技术，相比较早期的人工智能技术，提高了预测假冒身份行为的准确性。同时运用统计模型、说话人声纹特征统一建模等方式，将声纹识别的重点从声纹确认转移到生产环境中较少关注的声纹辨认领域，以更好地满足反欺诈需要。

随着互联网的发展，声音的传播范围和速度要比以往任何时候都广和快，同时侵犯他人声音利益的现象也日益突显，如声音冒用、声音伪装、声音盗用等，除了名誉侵犯，更严重的是会对个人信息安全造成威胁。特别是在新冠疫情的影响下，传统风险控制手段已经不足以应对隐藏在线上的欺诈风险。

有资深分析师称，未来，利用生物识别技术、深度算法学习发展多模态生物识别将是大势所趋，为用户信息安全提供强有力支撑。伴随科技革命和产业变革日新月异，人工智能驱动数字经济公司转型的动力也会越发强劲。

专题推荐：金融毛细血管

零壹智库推出“金融毛细血管系列策划”，通过系列文章、系列视频、系列报告、系列研讨会和专著，系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。