D系列語(yǔ)音卡的連續(xù)語(yǔ)音處理技術(shù)(CSP)
D系列語(yǔ)音卡采用DSP技術(shù)進(jìn)行連續(xù)語(yǔ)音處理(CSP,Continuous Speech Process),在電話線路與語(yǔ)音識(shí)別引擎之間對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,從而提高了語(yǔ)音識(shí)別引擎的效率和識(shí)別率,為ASR的成熟應(yīng)用奠定了基礎(chǔ),而東進(jìn)D系列語(yǔ)音卡和IBM的綜合語(yǔ)音處理解決方案也成為應(yīng)用系統(tǒng)開發(fā)者的首選。
1、回聲消除(ECR)。
ECR(Echo Cancellation Resource)是基于DSP技術(shù)對(duì)語(yǔ)音通道的聲音進(jìn)行的實(shí)時(shí)控制。其實(shí)現(xiàn)方法在于:在電話線路上收到的聲音里去掉IVR系統(tǒng)播放的聲音,從而保證收到的聲音是純凈的,如下圖所示。
圖 ECR原理
語(yǔ)音識(shí)別的過程實(shí)際是一個(gè)錄音和聲音比較的過程。當(dāng)錄下來的聲音(收到的聲音)是純凈或者比較純凈的時(shí)候,識(shí)別率將大大提高。
試驗(yàn)表明,采用回聲消除技術(shù)后,語(yǔ)音識(shí)別率得到顯著提高,從原有的70-80%提高到95%以上,滿足了商用要求。
2、語(yǔ)音打斷(Barge in)
語(yǔ)音打斷可以減輕系統(tǒng)資源占用,提高語(yǔ)音識(shí)別系統(tǒng)的利用效率,而且減少用戶等待的時(shí)間,節(jié)省話費(fèi)開支,為構(gòu)建高精度和高密度的系統(tǒng)創(chuàng)造了條件。
3、語(yǔ)音檢測(cè)(VAD)
語(yǔ)音檢測(cè) (VAD-Voice Activity Detection)技術(shù)的應(yīng)用是實(shí)現(xiàn)語(yǔ)音打斷的前提。其原理是檢測(cè)線路上的聲音能量(Voice Energy Detection),只有在檢測(cè)到語(yǔ)音後才啟動(dòng)錄音和語(yǔ)音識(shí)別進(jìn)程。
4、4-120路語(yǔ)音處理,D系列語(yǔ)音卡可以支持4-120路連續(xù)語(yǔ)音處理能力。
5、基于D系列語(yǔ)音卡的ASR的結(jié)構(gòu),如下圖所示: