首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品


語音辨識基礎(chǔ)知識

近 年 來 , 由 于 電 腦 在 軟 件 上 的 長 足 進(jìn) 步 , 類 似 電 視 影 集 霹 靂 游 俠 中 李 麥 克 與 霹 靂 車 伙 計 之 間 能 夠 使 用 人 類 語 言 和 電 腦 溝 通 的 情 節(jié) 已 不 再 是 夢 想 , 語 音 辨 識 科 技 這 一 兩 年 來 已 慢 慢 從 實 驗 室 里 的 研 究 走 入 到 我 們 的 生 活 之 中 。 聲 碩 科 技 通 過 臺 灣 大 學(xué) 李 琳 山 教 授 在 中 文 語 音 辨 識 方 面 研 究 成 果 , 專 注 于 語 音 辨 識 技 術(shù) 的 商 品 化 , 目 前 是 華 人 地 區(qū) 唯 一 掌 握 中 文 語 音 辨 識 核 心 并 推 出 產(chǎn) 品 的 公 司 。

什 么 是 語 音 辨 識

語 音 辯 識 最 基 本 的 定 義 , 就 是 “ 電 腦 能 聽 懂 人 類 說 話 的 語 句 或 命 令 , 而 做 出 相 對 應(yīng) 的 工 作 ” 。 也 就 是 說 , 如 果 電 腦 配 置 有 “ 語 音 辨 識 ” 的 程 序 組 , 那 么 當(dāng) 你 的 聲 音 通 過 一 個 轉(zhuǎn) 換 裝 置 輸 入 電 腦 內(nèi) 部 、 并 以 數(shù) 位 方 式 儲 存 后 , 語 音 辨 識 程 序 便 開 始 以 你 輸 入 的 聲 音 樣 本 與 事 先 儲 存 好 的 聲 音 樣 本 進(jìn) 行 對 比 工 作 。 聲 音 對 比 工 作 完 成 之 后 , 電 腦 就 會 輸 入 一 個 它 認(rèn) 為 最 “ 象 ” 的 聲 音 樣 本 序 號 , 就 可 以 知 道 你 剛 才 念 的 聲 音 是 什 么 意 義 , 進(jìn) 而 執(zhí) 行 此 命 令 。 說 起 來 簡 單 , 但 要 真 正 建 立 辨 識 率 高 的 語 音 辨 識 程 序 組 , 卻 是 非 常 困 難 而 專 業(yè) 的 , 世 界 各 地 的 學(xué) 者 們 也 還 在 努 力 研 究 最 好 的 方 式 。 例 如 , “ 聲 音 樣 本 ” 要 如 何 建 立 呢 ? 簡 單 來 說 , 如 果 要 辨 識 10 個 字 , 那 就 是 先 把 這 10 個 字 的 聲 音 念 入 電 腦 中 , 存 成 10 個 參 考 樣 本 , 辨 識 時 , 只 要 把 本 次 所 念 的 聲 音 ( 測 試 樣 本 ) 與 事 先 存 好 的 10 個 參 考 樣 本 一 一 對 比 , 找 出 與 測 試 樣 本 最 象 的 樣 本 , 即 可 把 測 試 樣 本 辨 識 出 來 ; 問 題 是 , 每 個 使 用 者 念 入 電 腦 的 語 音 長 度 、 音 調(diào) 、 頻 率 都 不 一 樣 ; 甚 至 同 一 個 人 , 盡 管 每 次 都 念 相 同 的 聲 音 , 但 波 形 卻 也 不 盡 相 同 , 如 果 在 一 個 有 雜 音 的 環(huán) 境 中 , 那 情 況 就 更 糟 了 。 因 此 , 專 家 學(xué) 者 們 研 究 出 許 多 破 解 這 個 問 題 的 方 法 , 如 傅 立 葉 轉(zhuǎn) 換 、 倒 頻 譜 參 數(shù) 等 , 使 目 前 的 語 音 辨 識 系 統(tǒng) 已 達(dá) 到 一 個 可 接 受 的 程 度 , 并 且 辨 識 度 愈 來 愈 高 。

語 音 辨 識 技 術(shù) 的 應(yīng) 用 層 面

  1. 電 腦 軟 件 是 目 前 最 被 視 廣 為 應(yīng) 用 的 方 向 。 例 如 : 語 音 命 令 、 語 音 輸 入 , 對 話 系 統(tǒng) 、 查 詢 系 統(tǒng) 、 教 學(xué) 軟 件 、 游 戲 軟 件 等 。

  2. 消 費(fèi) 性 電 子 產(chǎn) 品


  3. -- 例 如 : 電 子 記 事 本 、 聲 控 玩 具 、 語 音 拔 號 功 能 的 手 機(jī) 等 。

  4. 工 業(yè) 產(chǎn) 品


  5. -- 例 如 : 車 用 移 動 電 話 、 車 用 導(dǎo) 航 系 統(tǒng) 等 。

  6. 電 話 系 統(tǒng) -- 例 如 : 語 音 辨 識 總 機(jī) 服 務(wù) 、 語 音 拔 號 、 語 音 訂 票 訂 位 等 。

SpeechDirect SDK
聲 碩 科 技 在 1999 年 初 開 發(fā) 了 "SpeechDirect SDK" 語 音 辨 識 應(yīng) 用 軟 件 開 發(fā) 工 具 , 利 用 這 套 開 發(fā) 工 具 , 電 腦 軟 件 開 發(fā) 廠 商 可 以 開 發(fā) 出 各 式 各 樣 的 語 音 相 關(guān) 應(yīng) 用 軟 件 。 “ SpeechDirect SDK ” 語 音 辨 識 應(yīng) 用 軟 件 開 發(fā) 工 具 可 以 提 供 電 腦 軟 件 廠 商 一 個 簡 單 易 用 的 語 音 辨 識 程 序 界 面 , 開 發(fā) 關(guān) 于 語 音 控 制 、 自 然 語 音 資 料 庫 搜 尋 、 及 中 文 連 續(xù) 語 音 輸 入 等 等 的 應(yīng) 用 。 其 內(nèi) 含 的 中 文 語 音 辨 識 引 擎 可 以 支 援 單 詞 辨 識 ( ISR,Isolated Speech Recognition ) 、 關(guān) 健 詞 辨 識 ( KWS,Keyword-Spotting ) 、 甚 至 連 續(xù) 語 音 辨 識 ( CSR,Continuous speech recognition ) 。 此 外 還 支 援 電 腦 合 成 語 音 的 功 能 ( TTS , Text-To-Speech ) 可 將 文 字 轉(zhuǎn) 為 語 音 , 使 電 腦 不 僅 能 夠 聽 得 懂 人 說 的 話 而 已 , 更 可 以 用 人 的 語 言 與 人 類 溝 通 。 聲 碩 科 技 的 語 音 辨 識 引 擎 在 語 音 控 制 方 面 ( 包 括 單 詞 辨 識 及 關(guān) 鍵 詞 辨 識 ) , 不 需 要 口 音 訓(xùn) 練 即 可 使 用 , 可 避 免 因 口 音 訓(xùn) 練 而 帶 給 使 用 者 的 不 便 。

“SpeechDirect” 語 音 引 擎 主 要 包 含 下 列 功 能 :

在 語 音 辨 識 率 方 面 , 使 用 語 音 命 令 功 能 的 辨 識 率 大 概 在 90%--95% 之 間 , 下 表 顯 示 語 音 命 令 的 個 數(shù) 與 辨 識 率 之 間 的 關(guān) 系 。

語 音 命 令 個 數(shù)
辨 識 率
50
95.1%
100
93.8%
200
93%
300
92.3%
500
90.1%

“SpeechDirect” 語 音 辨 識 引 擎 的 特 色 有 :


 

下 圖 為 語 音 識 別 引 擎 的 系 統(tǒng) 結(jié) 構(gòu) :



聲 碩 科 技 的 “ SpeechDirect ” 語 音 辨 識 應(yīng) 用 軟 件 發(fā) 展 工 具 ( SDK ) 為 一 個 包 含 最 先 進(jìn) 中 文 語 音 辨 識 引 擎 的 應(yīng) 用 軟 件 發(fā) 展 工 具 , 其 目 的 是 幫 助 在 微 軟 視 窗 作 業(yè) 系 統(tǒng) 發(fā) 展 應(yīng) 用 軟 件 的 廠 商 , 能 快 速 而 簡 易 地 將 語 音 辨 識 功 能 加 進(jìn) 他 們 的 軟 件 中 。 “ SpeechDirect SDK ” 提 供 一 個 簡 單 易 用 的 語 音 應(yīng) 用 程 序 界 面 ( speech API, Application Programming Interface ) 給 使 用 者 作 語 音 辨 識 上 的 應(yīng) 用 , 同 時 又 不 失 使 用 上 的 彈 性 和 擴(kuò) 充 性 , “ SpeechDirect SDK ” 的 內(nèi) 容 除 了 聲 碩 科 技 的 中 文 語 音 辨 識 引 擎 外 , 還 包 括 使 用 說 明 文 件 、 范 例 程 序 、 相 關(guān) 工 具 及 語 音 資 料 庫 、 教 育 訓(xùn) 練 和 技 術(shù) 咨 詢 支 援 等 等 。

下 列 為 建 議 的 系 統(tǒng) 需 求 :

聲 碩 科 技 將 持 續(xù) 提 升 語 音 辨 識 的 正 確 率 , 并 朝 電 話 語 音 辨 識 及 語 音 集 成 的 方 向 發(fā) 展 , 此 外 , 也 會 開 發(fā) 支 援 微 軟 語 音 程 序 界 面 ( SAPI ) 的 語 音 辨 識 引 擎 , 使 語 音 程 序 界 面 標(biāo) 準(zhǔn) 化 。

 



相關(guān)鏈接:
主要語音引擎及開發(fā)工具 2002-01-30
聲揚(yáng)語音識別系列開發(fā)工具 2002-01-30
ASR:“說得出做得到” 2002-01-30
IBM ViaVoice語音軟件開發(fā)工具 2002-01-30
語音識別的應(yīng)用前景 2002-01-30

分類信息:     技術(shù)_語音識別_文摘