语音交互机器人
语音交互机器人常用于呼入和呼出场景,这两种场景,数据流一般都是:
当然也会有IOT场景,会涉及语音唤醒VAD等,这些场景都会涉及到对话管理模块。
指标体系
ASR
ASR(Automatic Speech Recognition),即自动语音识别,是把声音转换成文字的技术。
一般它主要有两个指标,句识别率和字正确率。但是我们在工作中经常性说的98%这个值,一般都是说字正确率,它忽略了插入错误。
其实,一般会说三个值。字错误率,字正确率,字精确率。
我们知道,ASR的转写结果一般有以下四类:
正确,即正确的字数,H;
错误(替换),即错误的字数,S;
插入,插入的字数,I;
删除(缺失),删除的字数,D;
N为 (替换 + 删除 + 正确)的字数;
字错误率(CER:Character Error Rate)
CER=(S + D + I ) / N = (S + D + I ) / (S + D + C )
实际测试时,如果样本量较小,很可能出现错误率大于100%的情况,当然,大样本几乎不可能出现,不然你的模型也太差了。
字正确率(Word Correct)
W.Corr = C / N
国内厂商宣传一般,都用这个值,只管正确的,忽略了插入的。
字准确率 (Word Accuracy)
W.Acc = (C - I)/ N
但是,实际上,ACC才是能准确反映ASR能力的指标。
当I=0时,ACC=W.Corr,
可以看出来,Acc一般比Corr要小。