语音交互机器人

语音交互机器人常用于呼入和呼出场景，这两种场景，数据流一般都是：

当然也会有IOT场景，会涉及语音唤醒VAD等，这些场景都会涉及到对话管理模块。

指标体系

ASR（Automatic Speech Recognition），即自动语音识别，是把声音转换成文字的技术。

一般它主要有两个指标，句识别率和字正确率。但是我们在工作中经常性说的98%这个值，一般都是说字正确率，它忽略了插入错误。

其实，一般会说三个值。字错误率，字正确率，字精确率。

我们知道，ASR的转写结果一般有以下四类：

正确，即正确的字数，H；

错误（替换），即错误的字数，S；

插入，插入的字数，I；

删除（缺失），删除的字数，D；

N为 （替换 + 删除 + 正确）的字数；

CER=（S + D + I ） / N = （S + D + I ） / （S + D + C ）

实际测试时，如果样本量较小，很可能出现错误率大于100%的情况，当然，大样本几乎不可能出现，不然你的模型也太差了。

W.Corr = C / N

国内厂商宣传一般，都用这个值，只管正确的，忽略了插入的。

W.Acc = （C - I）/ N

但是，实际上，ACC才是能准确反映ASR能力的指标。

当I=0时，ACC=W.Corr,

可以看出来，Acc一般比Corr要小。