亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當前的位置是:  首頁 > 新聞 > 國內 >
 首頁 > 新聞 > 國內 >

MRCP協(xié)議學習筆記-語音處理的基本原理

2018-05-02 09:17:14   作者:james.zhu    來源:Asterisk開源派   評論:0  點擊:


  在MRCP協(xié)議的處理流程中,聲音的處理包括了很多最基礎的語音聲學基本的原理。雖然我們不是聲學方面的專家,但是為了實現(xiàn)MRCP協(xié)議,我們還是需要一點基本的基礎知識。我們將從基本的人體聲音系統(tǒng)的產生和聲學工程學處理方式,語音語法,發(fā)音,語音識別前后端處理等方面做一個簡單介紹。
  1、首先,讓我們看看人體的聲音系統(tǒng)是如何進行工作的。人體的空氣通過肺,然后通過導管傳遞到喉嚨。喉嚨本身是一個非常復雜的系統(tǒng),包括發(fā)音的主要核心部分-聲帶。人體嘴唇,鼻腔,咽喉等通過振蕩等處理流程共同控制了發(fā)音,頻率,男女發(fā)音等不同的語音參數。
  人的語言系統(tǒng)可以轉化成一個工程化的處理流程來模擬真正的人體發(fā)音。通過工程轉化以后的示例結果如下。因為性別的不同,男性和女性的音高有所不同,女性的范圍大概在120-500Hz之間,男性則為50-250hz 之間。
  2、語音識別需要考慮很多的環(huán)境因素和人自己本身的因素。人們發(fā)音環(huán)境受很多因素的影響:
  • 每個人都發(fā)音都是獨特的,而且每個人都口音也不同。
  • 每個人都說話方式也完全不同,在有壓力的狀態(tài)下和無放松環(huán)境中,語音可能完全不同。
  • 講話環(huán)境不同可能導致不同的語音信號,增加了語音識別的復雜程度。
  總體來說,語音識別的基本流程概括如下:
  • 根據以上圖例說明,基本的語音識別流程大概幾個主要的處理流程。首先原始的語音通過Feature Extraction 功能提取過程,此過程通過各種環(huán)境變量,把原始語音中有價值的語音數據提取出來,過濾掉一些不相關的數據,形成一組緊湊,穩(wěn)定的,可識別的數據,以方便通過數據模型來進行處理。
  • 在模式識別中,此處理流程需要通過語法,語音模型和詞匯處理來對提取出來的語音進行加工。在模式識別處理中,識別模型使用了Hidden Markov Models (HMM) 模型來進行處理。HMM是一種數學結構模型,它分為兩個部分。第一個部分是把語音按序轉化成一種有方向性的圖形。第二部分在給定的狀態(tài)下,把所需功能進行模式化處理。如果大家需要了解更多具體的HMM細節(jié),請參考相關技術文檔。
  3、Endpoint detection(終端檢測)是針對背景噪音進行處理。它主要解決的問題是來自背景噪音的連續(xù)信號中部分獨立的語音進行分析處理。比較早的語音識別技術只能識別各自獨立的,缺乏對終端檢測的準確判斷。比較新的語音識別技術中可以對識別連續(xù)的語音。新語音識別技術可以通過訓練樣本來進行獲得準確的結果。
  在話語識別中,兩個主要的任務就是speaker verification 和 speaker identification。其中speaker verification 主要的目的就是實現(xiàn)講話人的驗證,講話人通過密碼輸入,其他相關編碼來識別器身份。講話者的驗證最終輸出的結果是接受此驗證或者拒絕此驗證;
  而speaker identification 的主要作用是從講話人中間確定某一個的身份。最終的輸出結果是以模型為基礎,從各種講話人中找到最相似的結果。
  Text-to-Speech(TTS)文本語音合成也是MRCP重要的一個技術概念。其主要目的是通過前后端引擎的處理,把自然文本語言轉化成語音流的過程。通過合成處理以后,其結果必須是正確的,智能的,當然也要具有語言的自然性。語音IVR就是一個非常典型的例子。以下圖例是一個語音合成的實現(xiàn)流程圖:
  前端處理主要負責用戶輸入的文本文字經過解析分析對比,然后形成語句單元,聲音音量等相關標簽。后端處理則根據前端的輸出結果存儲,重新排序,存儲,和數據庫的語句查詢重新構建語音流。后端處理中的Unit Selection是一個比較重要的技術話題,它涉及了數據庫存儲方面的問題和語義單元存儲方式的問題,包括存儲全句還是偏語或者其他的關鍵詞等。我們這里不再做過多討論。在未來的MRCP合成中會涉及。
  4、在本期的分享學習中,我們介紹了幾個基本的關于語音識別的概念和基本的處理流程。因為篇幅的關系和討論的側重點不同,這其中沒有涉及很多重要的概念,例如統(tǒng)計模型,語言模型,訓練,Mel-cepstrum等話題。我們主要把未來需要的幾個重點概念和處理流程做了簡要介紹,結合了幾個拓撲圖來幫助大家進一步了解語音識別的技術核心要素。當然,這些內容遠遠不能涵蓋語音識別的技術深度,并且難免存在很多問題,用戶需要自己通過語音識別的權威技術資料做進一步的研究。


  關注微信公眾號:asterisk-cn,獲得有價值的行業(yè)分享
  freepbx 技術論壇:www.ippbx.org.cn
  Asterisk, freepbx技術文檔: www.freepbx.org.cn
  歐米(Omni)智能客服解決方案
  融合通信商業(yè)解決方案,協(xié)同解決方案首選產品:www.hiastar.com
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題