語音編碼技術的應用與發(fā)展__CTI論壇

首頁 >> 新聞

語音編碼技術的應用與發(fā)展

隱匿 2001/08/01

語音數(shù)字化的技術基本可以分為兩大類：第一類方法是在盡可能遵循波形的前提下，將模擬波形進行數(shù)字化編碼；第二類方法是對模擬波形進行一定處理，但僅對語音和收聽過程中能時候到的語音進行編碼。其中語音編碼的三種最常用的技術是脈沖編碼調制（PCM）、差分PCM（DPCM）和增量調制（DM）。通常，公共交換電話網(wǎng)中的數(shù)字電話都采用這三種技術。第二類語音數(shù)字化方法主要與用于窄帶傳輸系統(tǒng)或有限容量的數(shù)字設備的語音編碼器有關。采用該數(shù)字化技術的設備一般被稱為聲碼器，聲碼器技術現(xiàn)在開始展開應用，特別是用于幀中繼和IP上的語音。

除壓縮編碼技術外，人們還應用許多其它節(jié)省帶寬的技術來減少語音所占帶寬，優(yōu)化網(wǎng)絡資源。ATM和幀中繼網(wǎng)中的靜音抑制技術可將連接中的靜音數(shù)據(jù)消除，但并不影響其它信息數(shù)據(jù)的發(fā)送。語音活動檢測（SAD）技術可以用來動態(tài)的跟蹤噪音電平，并為這個噪音電平設置一個享用的語音檢測閥值，這樣就使得語音／靜音檢測器可以動態(tài)匹配用戶的背景噪聲環(huán)境，并將靜音抑制的可聽度降到最小。為了置換掉網(wǎng)絡中的音頻信號，這些信號不再穿過網(wǎng)絡，舒適的背景聲音在網(wǎng)絡的任一端被集成到信道中，以確保話路兩端的語音質量和自然聲音的連接。

語音編碼技術的類別

語音編碼方法歸納起來可以分成三大類：波形編碼、信源編碼、混合編碼。

1．波形編碼

波形編碼比較簡單，編碼前采樣定理對模擬語音信號進行量化，然后進行幅度量化，再進行二進制編碼。解碼器作數(shù)／模變換后再由低通濾波器恢復出現(xiàn)原始的模擬語音波形，這就是最簡單的脈沖編碼調制（PCM），也稱為線性PCM�？梢酝ㄟ^非線性量化，前后樣值的差分、自適應預測等方法實現(xiàn)數(shù)據(jù)壓縮。波形編碼的目標是讓解碼器恢復出的模擬信號在波形上盡量與編碼前原始波形相一致，也即失真要最小。波形編碼的方法簡單，數(shù)碼率較高，在64kbit/s至32kbit/s之間音質優(yōu)良，當數(shù)碼率低于32kbit/s的時候音質明顯降低，16 kbit/s時音質非常差。

2．信源編碼

信源編碼又稱為聲碼器，是根據(jù)人的發(fā)生機理，在編碼端對語音信號進行分析，分解成有聲音和無聲音兩部分。聲碼器每隔一定時間分析一次語音，傳送一次分析的的道德有／無聲和濾波參數(shù)。在解碼端根據(jù)接收的參數(shù)再合成聲音。聲碼器編碼后的碼率可以做得很低，如1.2kbit/s、2.4kbit/s，但是也有其缺點。首先是合成語音質量較差，往往清晰度可以而自然度沒有，難于辨認說話人是誰，其次是復雜度比較高。

3．混合編碼

混合編碼是將波形編碼和聲碼器的原理結合起來，數(shù)碼率約在4kbit/s—16kbit/s之間，音質比較好，最近有個別算法所取得的音質可與波形編碼相當，復雜程度介乎與波形編碼器和聲碼器之間。

上述的三大語音編碼方案還可以分成許多不同的編碼方案。

語音編碼屬性可以分為四類，分別是比特速率，時延、復雜性和質量。比特律是語音編碼很重要的一方面。比特速率的范圍可以是從保密的電話通信的2.4kbit/s到64kbit/s的G.711PCM編碼和G.722寬帶（7KHz）語音編碼器。

脈沖幅度調制

數(shù)字化模擬波形的第一步建立一套用于輸入信號波形抽樣的離散時間集。一般的數(shù)字化技術是基于使用周期性，規(guī)律間隔抽樣時間的。如果抽樣發(fā)生足夠頻繁，原始波形就能夠從抽樣序列中完全恢復，使用低通濾波器在抽樣值之間插入波形值或進行平滑。

脈沖編碼調制

上文中講述了脈沖幅度調制，使用離散抽樣的時間以模擬抽樣幅度來從不斷變化的模擬信號中提取信息。脈沖編碼調制是對PAM的擴展，這里每一個模擬抽樣制備量化為代表某個數(shù)字編碼的離散值。因此，PA M系統(tǒng)通過在信源端加上模擬－數(shù)字信號轉換器就能夠轉化成為PCM系統(tǒng)。典型的量化過程是其中量化間隔中心的單個離散值表示。在這種方式中，量化過程對信號抽樣值引入了一定程度的誤差或失真。這種誤差，就是所謂的量化噪聲，可以通過建立大量小量化間隔來最小化。當然，隨著量化數(shù)目的增加，需要唯一識別量化間隔的比特數(shù)也增加了。

差分脈沖編碼

差分脈沖編碼是專門設計充分利用在典型語音波形中抽樣與抽樣之間冗余的。因為抽樣間差異的范圍遠小于單個抽樣的范圍，因此只需要更少的比特用于編碼抽樣間差異。抽樣速率通常是與可比較的PCM系統(tǒng)一樣的。因此在編碼器中的帶限濾波器和解碼器中的平滑濾波器基本上與那些用在傳統(tǒng)PCM系統(tǒng)中的濾波器是一樣的。對DPCM編碼器產生不同抽樣的簡單方法就是將前一個輸入抽樣直接存儲在抽樣保持電路中并使用模擬減法器來測試抽樣變化。信號的變化于是被量化并被編碼去傳輸。若采用DPCM結構，則更為復雜，當然，因為一個輸入是由被編碼的抽樣間差異進行積分的反饋環(huán)路來重建的。實質上，反饋的信號是對輸入信號的估計，該輸入信號是通過對被編碼的抽樣間差異進行積分來獲得的。因此用于在解碼器中重建波形的反饋信號也是以同樣的方式獲得的。

增量調制

增量調制（DM）是又一種在語音波形中專門利用抽樣與抽樣之間冗余的數(shù)字化技術。實際上。DM能被認為是DPCM的一個特殊情況，差信號的每抽樣僅使用1比特。唯一的1比特僅指出差異抽樣的極性，因此指示出了信號從上個抽樣開始時增加還是減少。對輸入波形的大致近似在反饋通路中進行構建的，當差異為正的時侯通過上升一個量化階，或當差異為負的時候，下降一個量化階來進行。用這種方法，輸入信號被按照上升或下降的序列以類似樓梯的方式來編碼。反饋信號會向一個方向上升直到近似信號超過了輸入信號，同時反饋會向反方向進行直到輸入信號超過了近似信號。因此，當跟蹤輸入信號時，DM輸出在輸入波形附近來回跳動，運行通過平滑濾波器來精確的重建輸入信號。

實現(xiàn)IP電話應用的關鍵技術

從最初的PC到PC的話音通信開始，IP電話已經逐步走向成熟。目前的IP電話業(yè)務主要借助于網(wǎng)關來實現(xiàn)。從技術的角度看，IP電話信息經過網(wǎng)關變成打包后的數(shù)據(jù)，通過IP網(wǎng)絡輿到被叫一方的IP接入端，對端的網(wǎng)關接收到話音數(shù)據(jù)包后，進行處理后將數(shù)據(jù)還原成模擬信號，再送給電話聽往筒或傳真機。IP電話是計算機通信和電話通信相結合的產物，它涉及許多技術領域，其中最重要的包括以下幾項技術。

語音壓縮編碼技術。1995年，國妹電聯(lián)批準了一個被稱為G.729的新的話音壓縮標準。該標采用的算法，可以僅用8KBPS的帶寬傳輸話音，話音質量與32KBPSADPCM(差分脈沖編碼市制)相同。ADPCM在全球的公共電話網(wǎng)絡中被用于提供長話級話音。此后，這一壓縮話音標準又得到了進一步的優(yōu)化改進。

話音優(yōu)先級技術。話音通信是一種對實時性要求高的業(yè)務。目前，由于因特網(wǎng)是一個廣域公用網(wǎng)，因此網(wǎng)上的各種實時或非實時應用都在占用帶寬。為了能保證提供高度音質的IP電話通信，在廣域網(wǎng)寬不足的IP網(wǎng)絡上，一般需要話音優(yōu)先技術。目前，很多IP網(wǎng)絡的路由器都把話音包的優(yōu)先級作為最高，這樣，路由器一旦發(fā)現(xiàn)話音包，就會將它們插入到IP包隊列的最前面優(yōu)先發(fā)送。這樣，網(wǎng)絡的昝與抖動情況對話音通信的影響均將得到改善。另一種提高話音處理優(yōu)先處理優(yōu)先級的技術是資源預留協(xié)議(RSVP)，它專門為話音通信預留帶寬。只要有話音呼叫請求，網(wǎng)絡就根據(jù)規(guī)則為話音通信預留出設定帶寬，直到通話結束，帶寬才釋放。

靜音抑制技術。一般說來，人們在進行電話交談時，很多情況下處于靜音狀態(tài)，例如，一方在講話時，另一方在聽，而且講話過程中有大量顯著的停頓。有關調查結果表明，在一路全雙工電話交談中，只有40%左右的信號是有效的。靜音抑制技術會檢測通話過程或傳真過程中的安靜時段，并在這些安靜時段停止發(fā)送語音包。這樣，大量的網(wǎng)絡帶寬節(jié)省下來用于其他話音或數(shù)據(jù)通信。

清除回聲的技術�；芈暿窃谟脩艚粨Q機或局用交換機一端，有少量未能被充分轉換而且沿原路返回而形成的。如果呼叫方離交換機不遠，回聲返回很快，人耳聽不出來，這種情況無關緊要。但要當回聲返回時超過地10毫秒時，人耳就可聽到明顯的回聲了。為了防止回聲了。為了防止回聲，一般需要回聲消除技術，在處理器中有特殊的軟件代碼監(jiān)聽回聲信號，并將它從聽話人的語音信號中清除。對于IP電話設備，回聲消除技術是十分重要的，因為一般IP網(wǎng)絡的時延很容易就達到50毫秒。

處理話音抖動的技術。IP網(wǎng)絡的一個特征就是網(wǎng)絡延時與網(wǎng)絡抖動，這可能導致IP電話音質下降。網(wǎng)絡延時是指一個IP包在網(wǎng)絡上傳輸平均所需的時間網(wǎng)絡抖動是指IP包傳輸時間的長短時間的長短變化。當?shù)母鞣N因素造成的話音延時超過200毫秒時，通話雙方一般就傾向于采用半雙工的通話方式。

一方說完后另一方再說。另一方面，如果網(wǎng)絡抖動較嚴重，那么有的話音包因遲到被丟棄，會產生話音的斷續(xù)及部分失真，嚴重影響音質。為了防止這種抖動，很多公司采用了抖動緩沖技術，即在接收設定一個緩沖池中取出，解壓，播放給受話者。這種緩沖技術可以在一定限度內有效地處理話音抖動，并提高音質。

小結

在IP、FR和ATM上傳遞語音時選擇適當?shù)恼Z音編碼技術，充分利用資源并最大限度的利用語音編碼方案自身的技術特點是很重要的。語音壓縮一般用來描述速率小于64kbit/s語音的數(shù)字化。一般情況下，啟動時PCM的速率為64kbit/s，壓縮后速率變小。在理想狀態(tài)下，語音質量不會受到影響，但實際上還是會有一些影響，只不過用戶不易察覺而已。沒種語音壓縮技術都具備各自的特點。目前的語音壓縮標準，將語音業(yè)務在網(wǎng)絡中所占帶寬可以減少到80％，這樣就為其它業(yè)務（如數(shù)據(jù)業(yè)務）在網(wǎng)上的傳輸提供了必要的帶寬。動態(tài)壓縮則比前者更進一步，它允許網(wǎng)絡管理者對網(wǎng)絡進行管理，并在業(yè)務增加時以每個連接提供合適的語音質量。

寬帶資源的有限性和對寬帶需求的增加，使得語音壓縮技術成為分組網(wǎng)絡實現(xiàn)語音業(yè)務的嚴峻挑戰(zhàn)。將單一的網(wǎng)絡合并成為一個整體結構，可以減少通信成本，提高效率，有利于網(wǎng)絡資源的管理。其中關鍵環(huán)節(jié)就是如何將這些進行最有效的管理和應用，從而滿足用戶的各種要求。

摘自計算機世界網(wǎng)