吏部侍郎

我见青山多妩媚,料青山见我应如是

0%

语音交互指标评价体系

语音交互机器人

语音交互机器人常用于呼入和呼出场景,这两种场景,数据流一般都是:

image-20220226181035840

当然也会有IOT场景,会涉及语音唤醒VAD等,这些场景都会涉及到对话管理模块。

指标体系

ASR

ASR(Automatic Speech Recognition),即自动语音识别,是把声音转换成文字的技术。

一般它主要有两个指标,句识别率和字正确率。但是我们在工作中经常性说的98%这个值,一般都是说字正确率,它忽略了插入错误。

其实,一般会说三个值。字错误率,字正确率,字精确率。

我们知道,ASR的转写结果一般有以下四类:

正确,即正确的字数,H

错误(替换),即错误的字数,S

插入,插入的字数,I

删除(缺失),删除的字数,D

N为 (替换 + 删除 + 正确)的字数;

字错误率(CER:Character Error Rate)

CER=(S + D + I ) / N = (S + D + I ) / (S + D + C )

实际测试时,如果样本量较小,很可能出现错误率大于100%的情况,当然,大样本几乎不可能出现,不然你的模型也太差了。

字正确率(Word Correct)

W.Corr = C / N

国内厂商宣传一般,都用这个值,只管正确的,忽略了插入的。

字准确率 (Word Accuracy)

W.Acc = (C - I)/ N

但是,实际上,ACC才是能准确反映ASR能力的指标。

当I=0时,ACC=W.Corr,

可以看出来,Acc一般比Corr要小。

欢迎关注我的其它发布渠道