您现在的位置:首页 >> 环保新闻

面向铁路旅客服务技术的发展的语音识别模型研究

时间:2024-01-20 12:19:17

化上沙入关注点系统,发挥关注点系统给定少、速度快的优势,且基于关注点系统的渐进测算不缺少于上一步的测算结果,可补救RNN只能并行测算的弱点,还能从较窄的句法网际网路以后捕获不可或缺特性,补救窄句法网际网路被弱解构的弱点。紧密结合游客常问弱点检索仪缓冲器和设本站人机客户服务机械2个应主要用途故事情节以后的游客客户服务功能,来进行改良的小字含义标记仿真已完成独创解构开发新,使游客可通过小字含义交互方式为简单、快捷、高效地给予用所需客户服务。

1. 特别的网络平台仿真1.1 CTC仿真和RNN-T仿真

CTC仿真是一种可以把小字含义转解构句法的小字含义标记仿真,只能够获取匹配的音频文件基因序列和完全相同的转换缓冲器句法基因序列,就可以对CTC仿真展开基础训练,补救了传统观念小字含义标记仿真基础训练时能够表单交叉的弱点。经CTC截取后,每定格都能填充完全相同的小字含义,只能够展开原先的管控,因而CTC仿真能够很好地支持都只小字含义标记。

如三幅1表,CTC仿真已完成小字含义标记的音频文件网际网路管控系统设计为:(1)将音频文件网际网路除此以外包含若干段,每段都匹配一个鼻音,填充未及测基因序列,此处应运而生空白符主要用途分割鼻音(即三幅1以后注记示为灰色上端),空白符不完全相同任何匹配,原先就会从转换缓冲器以后将其写入;(2)分拆重复的鼻音,并消除空白符;(3)转换缓冲器完全相同的句法基因序列。

三幅 1 CTC仿真管控系统设计

串流: 同类别三幅片 大屏幕

CTC仿真的缺点是忽略了音频文件基因序列数间的前后缺少亲密关系,即普遍认为现阶段帧yuyu与前序各帧yi(iq、鼻音以及含义之数间不能明显边界,各个发音单位还就会受到小字符串的阻碍。因此,对小字含义瞬时展开电脑学习时,能够考量音频文件基因序列数间前后缺少亲密关系,否则就会对仿真的标记对照两组产生不良阻碍。

为补救这个弱点,RNN-T仿真对CTC仿真展开了改良,在CTC仿真的格式缓冲器(Encoder)一新,沙入了RNN在结构上,它将前面转换缓冲器的帧作为未及测网络平台(Prediction Network)的匹配,如此一来将转换缓冲器的容秘向量pupu与由Encoder填充的感觉特性基因序列henchenc匹配到倡议网络平台(Joint Network)以后,经倡议网络平台管控后取得转换缓冲器值zizi,如此一来将zizi传递到Softmax层,再一取得完全相同类的概部将P(y^i|x1,⋯,xti,y0,⋯,yui−1)P(y^i|x1,⋯,xti,y0,⋯,yui−1),其在结构上如三幅2表。

三幅 2 RNN-T仿真在结构上

串流: 同类别三幅片 大屏幕

RNN-T仿真的特点是,可将未及测网络平台转换缓冲器的句法特性和小字含义瞬时的电磁特性极佳地溶入在一同,同时对两者展开倡议优解构,从而赢取极佳的标记对照两组。

1.2 Conformer仿真

Conformer Encoder既有在结构上如三幅3表,每个Conformer 块类似于一个三明治在结构上,前后比如说2个Feed Forward Network(FFN)模块化,每个FFN模块化的转换缓冲器只取用原转换缓冲器的一半。文献[10]通过测试者验证注记明,与只取用单个FFN在结构上的全部转换缓冲器相比之下,各取用2个FFN在结构上的一半转换缓冲器,可使仿真既有上注记成颇为极佳的性能。

三幅 3 Conformer Encoder既有在结构上

串流: 同类别三幅片 大屏幕

Conformer Encoder的概略为

x~i=xi+12FFN(xi)x′i=x~i+MHSA(x~i)x′′i=x′i+Conv(x′i)yi=Layernorm(x′′i+12FFN(x′′i))x~i=xi+12FFN(xi)xi′=x~i+MHSA(x~i)xi″=xi′+Conv(xi′)yi=Layernorm(xi″+12FFN(xi″))

(1)

其以后,FFN(x)FFN(x)、MHSA(x)MHSA(x)、Conv(x)Conv(x)共有Feed Forward模块化、Multi-Head Self Attention模块化、Convolution模块化的测算结果,yiyi为这3个模块化经Layernorm规范解构管控后的转换缓冲器结果。

2. 小字含义标记仿真改良2.1 关注点系统

考量到条铁路游客客户服务应主要用途故事情节,存有为数众多窄句注记述的可能会,且能够考量小字符串之数间的联系。Conformer在结构上以后的正弦模块化在基础训练以后忽略了窄句以后的区域内特性,且音频文件网际网路本身也存有很难给予用区域内与既有之数间差异性的弱点,为此能够对正弦模块化认真成改良。

本来的Conformer仿真以后的正弦模块化用作pre-norm残差、point-wise正弦和线性门上单元(GLU,Gated Linear Unit)。为了补救很难将窄小字含义基因序列合理注记示为完全相同特性向量的弱点,在Conformer仿真的正弦模块化以后增高一条基于Attention系统的测算正向,将本来正弦模块化的测算结果与Attention模块化的测算结果相乘,作为再一正弦模块化的结果,如三幅4表。

三幅 4 Conformer的正弦模块化在结构上

串流: 同类别三幅片 大屏幕

Attention系统能够极佳地捕获一个系统和区域内数间的联系,在一定素质上毕竟了正弦机缓冲器深造对区域内与既有之数间差异性的忽略。改良后的正弦模块化的概略为

Conv(x′i)=conv(x′i)×att(x′i)Conv(xi′)=conv(xi′)×att(xi′)

(2)

其以后,conv(x)conv(x)、att(x)att(x)共有正弦模块化、Attention模块化的测算结果,Conv(x)Conv(x)为两个模块化相乘的结果。

Attention管控反复为:(1)对匹配展开行列式,取得Query、Key、Value(分别称作Q、K、V);(2)将Q与K展开点积乘积,取得匹配含义之数间的缺少亲密关系;(3)展开尺度变换、掩码和softmax操作方法,再一填充Attention矩阵:

att(Q,K,V)=softmax(QKTdk−−√)Vatt(Q,K,V)=softmax(QKTdk)V

(3)

其以后,dkdk为Q和K向量的维度,之比该给定是为了未及防Q与K的点积乘积结果过大。

由公式(1)~(3)可得,改良后的Conformer在结构上的概略为

x~i=xi+12FFN(xi)x′i=x~i+MHSA(x~i)x′′i=x′i+conv(x′i)×att(x′i)yi=Layernorm(x′′i+12FFN(x′′i))x~i=xi+12FFN(xi)xi′=x~i+MHSA(x~i)xi″=xi′+conv(xi′)×att(xi′)yi=Layernorm(xi″+12FFN(xi″))

(4)

2.2 Conformer-Transducer仿真在结构上

Conformer-Transducer(C-T)仿真是对RNN-T仿真的改良,用Conformer Encoder在结构上替代RNN-T仿真以后的RNN Encoder在结构上,并且延用2.1节以后驳斥的在正弦模块化以后应运而生关注点系统的Conformer Encoder在结构上,未及测网络平台在结构上有所区别双层LSTM,其仿真在结构上如三幅5表。

三幅 5 Conformer-Transducer仿真在结构上

串流: 同类别三幅片 大屏幕

LSTM是对基因序列网际网路展开操作方法,适主要用途对时数间基因序列以后较宽和延期相比较较窄事件的管控。在堆叠式LSTM在结构上以后,上层的LSTM为下层的LSTM获取的是基因序列转换缓冲器,而不是单个值转换缓冲器。因此,该仿真能够更有用地管控时数间基因序列网际网路,以不尽相同的比率捕获网际网路。必需双层LSTM作为未及测网络平台可增高机缓冲器深造的最深处,大幅提高基础训练效部将,并赢取更高的标记对照两组。

3. 改良仿真小字含义标记真实感归纳3.1 网际网路集与评估举例来说

为沙强小字含义标记仿真的教育领域特性,网际网路集的网际网路一其余部分由来12306人工账号谈话音频文件资料,对游客与账号数间谈话音频文件展开清洗和拆分,消除音频文件以后无人声的其余部分音频文件,萃取用的直接小字含义音频文件时窄分之一为540 h;另有一其余部分网际网路是两组织专人现场表演的条铁路成行组织法及游客常问弱点的问答谈话,现场表演的直接小字含义音频文件时窄分之一为200 h。网际网路集附有分之一32万对小字含义-句法网际网路对,按照7:3的比率,将网际网路集包含基础训练集和测试者集;其以后,基础训练集主要用途对小字含义标记仿真的基础训练,测试者集主要用途对仿真展开测评。测试者网际网路集的人口统计网际网路如注记1表。

注记 1 网际网路集人口统计网际网路

网际网路集区分

小字含义时窄 / h

小字含义-句法网际网路对 / ×103对

基础训练集

527

236.2

测试者集

219

91.4

串流: 导成CSV | 显示注记格

在小字含义标记任务上,采用小字错误部将(CER,Character Error Rate)作为小字含义标记仿真的对照两组高度评价举例来说,误差得越低,注记示真实感得越好;CER概略为

CER=S+D+IN×100%CER=S+D+IN×100%

(5)

其以后,SS注记示换成的小字符串数目;DD注记示写入的小字符串数目;II注记示接在的小字符串数目;NN注记示参考基因序列以后小字符串总数。

3.2 测试者环境污染配置

测试者环境污染配置如注记2表。

注记 2 测试者环境污染配置

测试者环境污染

配置

操作方法系统

Linux

CPU型号

Inter(R) Xeon(R) CPU E5-2698 v4 @ 2.20 GHz

GPU型号

Tesla V100

运行内存

251 GB

程序母语

Python

程序两组件

Pytorch

串流: 导成CSV | 显示注记格

3.3 小字含义标记仿真给定新设

由于给定需求量对仿真对照两组就会产生一定的阻碍,考量了2种给定需求量的Conformer仿真(Conformer small 和Conformer big),其具体技术细节给定新设如注记3表。

注记 3 2种小字含义标记仿真的给定需求量新设

仿真

Params(B)

Layers

Dimension

Attention Heads

Conformer small

0.6

34

1024

8

Conformer big

1.0

36

1024

8

串流: 导成CSV | 显示注记格

匹配帧用作了较小为 8 的小字符串窗口,可填充640维特性向量,将其作为传感缓冲器格式缓冲器的匹配,帧反转新设为 30 ms;所有仿真的正弦核较小都新设为5;未及测网络平台有所区别2 个容秘端口为720的 LSTM 层。2个仿真分别在基础训练乘积12个epoch 和15个epoch后结果趋于稳定,仿真基础训练耗时分之一2~3天时数间。

3.4 基础训练技术细节

(1)网际网路管控:测试者以后音频文件统一用作16 KHz的采样部将,若存有不适用16 KHz采样部将的音频文件,则对其展开采样部将转解构;音频文件特性为80维log-mel FBank。

(2)未及基础训练:采用w2vec对Conformer格式缓冲器网络平台展开未及基础训练,未及基础训练的掩码起点以0.06的概部将随机必需,掩码步窄新设为10。用作Adam优解构缓冲器和Transformer深造部将策略通气深造部将,每秒钟深造部将为2e-3,未及热步窄新设为25。Comformer small仿真和Comformer big仿真除此以外用作Adam优解构缓冲器和指数快速移动平除此以外展开基础训练。

(3)仿真基础训练:与未及基础训练相同,所有仿真都用作Adam优解构缓冲器和指数快速移动平除此以外展开基础训练,根据下游任务调整batch较小、深造部将和未及热步窄。用作规范的增量SpecAugment策略,频部将掩码F新设为27,时数间掩码的最大时数间掩码比Ps新设为0.05,用作2个频部将掩码和10个时数间掩码对匹配展开减弱。

3.5 结果归纳

以RNN-T仿真作为弧仿真,对T-T仿真和改良前后的C-T仿真展开对比测试者,不尽相同仿真的测评结果如注记4表。

注记 4 RNN-T弧仿真、T-T仿真和改良前后的C-T仿真的测评结果

仿真

CER/%

与弧仿真差值/%

弧仿真

9.13

T-T

8.59

−0.54

C-T (Conv) small

8.24

−0.89

C-T (Conv) big

8.15

−0.98

C-T (Conv+Attention) small

7.98

−1.15

C-T (Conv+Attention) big

7.91

−1.22

串流: 导成CSV | 显示注记格

结果注记明:

(1)给定需求量就会对仿真对照两组产生一定阻碍。从测评结果可以看成,相比较于C-T (Conv) small仿真,C-T (Conv) big仿真的小字错误部将降低0.09%;C-T (Conv+Attention) big仿真较于C-T (Conv+Attention) small仿真,在小字错误部将上降低0.07%。2两组测试者除此以外注记明,给定需求量的增加,在一定素质上能大幅提标记对照两组,进一步提的性能。

(2)Attention系统对正弦模块化较强一定的变更作用。相比较于无Attention系统的C-T small仿真,沙入Attention系统的C-T small仿真的小字错误部将降低0.26%;相比较于无Attention系统的C-T big仿真,沙入Attention系统的C-T big仿真的小字错误部将降低0.24%,标记对照两组达到92.09%。2两组测试者除此以外注记明,Attention系统在一定素质上能对正弦模块化的截取结果展开变更,从而大幅提的标记对照两组。

4. 溶入为中心条铁路游客客户服务应主要用途的句法管控系统

在条铁路游客客户服务以后,账号其他部门上与游客展开母语交互,形成音频文件网际网路。而条铁路游客客户服务以后母语交互技术细节一般来说完全相同着特定的句法网际网路,如条铁路成行组织法汇编、游客常问弱点库等。为此,可考量来进行教育领域特性句法网际网路来辅助小字含义标记,在小字含义标记仿真以后沙入句法管控系统。针对特定的条铁路游客客户服务小字含义标记应主要用途,除了对小字含义标记仿真展开改良和基于教育领域特性网际网路集基础训练皆,进一步紧密结合以下2种句法管控系统展开独创解构管控。

(1)母语仿真:母语仿真的作用是通过测算记得的概部将来判断该语句的主语到底通顺,包含人口统计母语仿真和机缓冲器深造母语仿真2种类别。人口统计母语仿真是通过小数的方式为对概部将展开解法,而机缓冲器深造母语仿真是通过机缓冲器深造展开电脑学习解法,但两者都是基于仿真对匹配句法展开概部将未及估。最会用的人口统计母语仿真是n-gram母语仿真,该仿真普遍认为现阶段含义与前面的n-1个含义有关,但该仿真不能充分考量含义与含义之数间的亲密关系,较难致使网际网路稀疏;为了补救网际网路稀疏的弱点,研究者其他部门上驳斥了机缓冲器深造母语仿真,会主要用途相结合母语仿真的机缓冲器深造有:循环机缓冲器深造、窄短时记忆网络平台、Transformer等。母语仿真与小字含义标记仿真的溶入方式为是,来进行条铁路特别内容可对母语仿真展开基础训练,如此一来在小字含义标记仿真的截取过渡阶段,将母语仿真展开插值溶入。

(2)热含义催生:在小字含义标记仿真以后,对于会用含义汇的标记真实感极佳,但对于特有的人名、地名或者特定教育领域的专有含义汇来说,可能存有标记对照两组不高的可能会。对于这些专有含义汇,可以建立小字含义标记任务专用的热含义含义典,并新设热含义催生模块化,以显着进一步提高专有含义汇的标记对照两组。在小字含义标记仿真的截取过渡阶段,除了来进行母语仿真展开插值溶入皆,还可以来进行热含义催生模块化对截取结果展开变更。

5. 条铁路游客客户服务小字含义标记应主要用途实例5.1 游客常问弱点检索仪缓冲器

条铁路12306官方网本站按照车票、购票、进本站乘车等不尽相同过渡阶段,对游客常问弱点展开分类学。游客可根据检索需求,通过索引或用作查看上端来寻找正确性,这种检索操作方法方式为颇为耗时,更适合在测算机上展开操作方法。目前,12306 App早已获取游客检索游客常问弱点的查看上端,游客拨打12306人工账号一般来说能够大排长龙等候较窄时数间,才能赢取账号其他部门上的弱点正确性。

为此,设计了一款基于小字含义标记系统设计的游客常问弱点检索仪缓冲器,直接通过小字含义交互来已完成游客遭遇的大多数弱点正确性,游客无需手动匹配检索条件,也只能够拨打账号电话咨询,极大地缩短游客咨询弱点的时数间。条铁路游客常问弱点检索仪缓冲器的小字含义网际网路管控系统设计如三幅6表。

三幅 6 条铁路游客常问弱点检索仪缓冲器的小字含义网际网路管控系统设计

串流: 同类别三幅片 大屏幕

该仪缓冲器紧密结合都只与非都只2种小字含义标记仿真。其以后,都只小字含义标记仿真能够在管控音频文件流的反复以后数据处理返国标记结果,适主要用途立即检索仪缓冲器数据处理返国检索结果的应主要用途故事情节。相比较都只小字含义标记仿真,非都只小字含义标记仿真的标记结果颇为正确,可主要用途变更都只仿真的标记结果。

在音频文件格式管控过渡阶段,将Transformer仿真与Conformer仿真相紧密结合,充分紧密结合两种仿真的优点,保证窄短句姪的直接格式。在音频文件截取管控过渡阶段,增高基于Transformer和n-gram的2种母语仿真,来进行条铁路特别内容可对母语仿真展开基础训练。为大幅提高音频文件截取的召回部将,增高了CTC prefix beam search的截取反复,该截取解法可筛选成N条最佳截取正向。在已完成音频文件截取管控后,增高了热含义催生模块化,新设游客会用弱点热含义含义典,根据这N条最佳截取正向以后包含热含义的可能会展开催生沙分,再一拟定得分最高的那一条最佳截取正向作为标记结果。

通过收集和整理游客常问弱点,在测试者室环境污染对小字含义检索功能展开模拟测试者,对照两组达分之一为92%。

5.2 设本站人机客户服务机械

随着人工人机(AI,Artificial Intelligence)系统设计的慢慢成熟及人机机械的应主要用途兴起,条铁路设本站新型人机机械正朝着“AI+人机成行”方向的发展。新型人机机械的用作转变了传统观念设本站只能靠人工客户服务和标识引导的方式为积极参与设本站游客客户服务工作,使条铁路游客成行更沙便捷、高效。目前,已有其余部分条铁路设本站应运而生人机机械为游客获取随从客户服务,同时还能获取旅客列车、公共交通线路、天气、酒吧等网际网路检索客户服务。目前,这些检索客户服务还能够游客手动操作方法,还不能直接地紧密结合小字含义标记系统设计。

为此,开发新了“零操作方法”设本站人机客户服务机械,可通过小字含义交互方式为为条铁路游客获取颇为年底的人性解构客户服务,设本站人机客户服务机械与条铁路游客的交互反复如三幅7表。

三幅 7 设本站人机客户服务机械与条铁路游客的交互反复

串流: 同类别三幅片 大屏幕

设本站人机客户服务机械与条铁路游客的交互反复为:(1)机械首先展开小字含义标记,将小字含义瞬时转解构为句法;(2)通过自然地母语明白系统设计对句法展开句法明白,将其可定义为游客谈话行为;(3)谈话经营管理模块化根据游客谈话行为,紧密结合游客常问弱点知识库技术细节,必需机械能够监督的系统行为;(4)通过自然地小字含义填充系统设计,填充能够种系统给游客的自然地母语;(5)机械将合成的弱点正确性小字含义种系统给其他用户。

本文驳斥的小字含义标记仿真主要主要用途借助于设本站人机客户服务机械的小字含义标记功能模块化,与国际标准化组织的小字含义标记仿真相比之下,为设本站人机客户服务机械独创开发新的小字含义标记仿真在标记条铁路专有名含义方面真实感甚佳。这个小字含义标记仿真的基础训练集有所区别条铁路账号谈话内容可,且新设有条铁路专用注释,收录了设本站名、小城镇名、旅客列车网际网路等条铁路特别行业概念,以及行程所遭遇弱点的关键含义,可显着地大幅提高设本站人机客户服务机械内嵌的小字含义标记解法的适用性。设本站人机客户服务机械在与转车的交互反复以后,能更沙正确地标记成游客所驳斥的弱点,例如“本站区怎么走”、“如何认真人脸核验”、“怎么取用报销凭证”之类的常见弱点,从而给成适用游客所问弱点的正确性。

除了为条铁路游客获取所在设本站、设本站所在小城镇等成行特别网际网路皆,设本站人机客户服务机械还可获取火车线路检索、旅客列车时数间、票价政策、乘车须知、失物招领、引导窗口、业务办理等账号网际网路,能够替代设本站账号其他部门上已完成大量的游客客户服务工作。

6. 结束语

本文基于RNN-T仿真展开小字含义标记仿真研究者,用Conformer在结构上本来了RNN Encoder,并对Conformer在结构上的正弦模块化展开了改良,并在其以后沙入关注点系统,毕竟了正弦网络平台基础训练的缺点,可直接大幅提高小字含义标记仿真的标记对照两组。考量到条铁路游客客户服务举例来说都完全相同着特定句法网际网路,在小字含义标记仿真的一新溶入了母语仿真与热含义催生2种句法管控系统,使其在条铁路专有名含义的标记上优于国际标准化组织的小字含义标记解法。同时,基于改良后的小字含义标记仿真,已完成了游客常问弱点检索仪缓冲器与设本站人机客户服务机械以后小字含义标记应主要用途的开发新。小字含义标记应主要用途有效地大幅提高条铁路游客客户工作效部将,优化条铁路游客成行趣味,还能颇为直接地替代条铁路负责人已完成更多游客客户服务,促进条铁路游客客户服务工作借助于减员增效。

在也就是说故事情节以后,条铁路游客用作条铁路游客客户服务小字含义标记应主要用途时,无法保证所处环境污染相比较安静,各种有用的电磁环境污染就会对小字含义标记的真实感造成不良阻碍。此皆,在日常家庭以后,人们言语一般来说也颇为不对,母语习惯不一,如类似于明显地方发音、往往重复、停摆或接在,不必严格遵循语法立即。对于基于规范小字含义基础训练的小字含义标记仿真而言,要认真到正确标记这类缺乏足够指导方针的小字含义是相当吃力的。因此,如何逐步进一步提高条铁路游客客户服务小字含义标记系统设计的鲁棒性将是下一过渡阶段的研究者重点。

受凉拉肚子必奇有用吗
胃酸过多吐酸水怎么办
反酸烧心可以用奥美拉唑胶囊吗
免疫力差怎么调理补
眼睛视疲劳用哪个眼药水