機器人語音技術與模組－robot 機器人

一、語音模組/技術之介紹
可幫助機器人處理語音輸入與輸出之模組與技術，皆屬機器人語音技術與模組的範疇。機器人語音模組包含錄音前級（麥克風陣列與語音訊號取樣）、語音訊號處理核心、語音合成輸出後級、與從旁輔助之語者定位、語者確認與對話管理模組（包含處理應對流程與資料擷取或控制）等，圖1為語音模組之定義說明。
但目前尚未有機器人專用之語音技術與模組，一般是直接以通用的語音技術與模組稍做修改，使其配合機器人本身，適合機器人使用。

圖1 語音模組之定義
（圖片來自網路）

語音模組與技術，一般分成語音辨認、文字轉語音、自然語言理解、語音對話系統和嵌入式語音應用等，再者可分成硬體與純軟體實作兩類。直接做成硬體者較少，通常只侷限在嵌入式系統方面，大多以通用DSP平台搭配軟體程式方式運作，運作平台為特定小字彙辨認與語音合成領域。

（一）語音技術之基礎與應用
要懂得語音技術就必須先瞭解人類如何利用語音來做溝通的媒介，我們從人類發出語音的結構看起，聲音是人類聲帶震動所產生出來的信號，而這些信號分為母音與子音，母音在波形上看起來像是規律的週期信號，而子音與我們不要的環境雜訊信號類似是不規律的信號，人類所發出的語音頻寬大約為 5kHz，所以一般在電話系統中只要有這樣的頻寬即可完全傳遞語音。
人類除了聲帶的影響，最大的差異就是發音腔道不同。模仿他人聲音時，是變化腔道形狀以產生想要的聲音；感冒時聲音的差異，則是因為聲帶受咽喉發炎影響造成震動不完全，所以即使是相同發音腔道也會受不同聲帶狀況，而產生不同的聲音。
如圖2所示，我們由聲帶震動產生信號，再經發音腔道產生語音訊號。

圖2 語音產生示意圖
（圖片來自網路）

為了充分瞭解語音的特性我們繪出一些分析圖如圖3所示，由上至下分別是波形圖、光譜圖、音強曲線圖及基頻曲線圖，光譜圖是利用顏色變化代表信號強度，因此在光譜圖中我們可以得到三個維度訊息；而音強曲線圖是將語音訊號的能量取對數，畫出相對於時間上的分佈圖；基頻分佈圖可以呈現音高的變化，這些分析圖對我們瞭解語句結構將有很大的幫助。

圖3 語音常用之分析圖
（圖片來自網路）

接著介紹人類聽覺器官-耳朵，耳朵分成外耳、中耳及內耳三個部分，圖4左邊所看到的外耳道就像是一條長管，它能幫助我們傳遞接受的聲音訊號；中耳包含鼓膜、三小聽骨、卵圓窗及耳咽管等，鼓膜主要是將自外耳道接收到的聲音，藉由聲波震動到三小聽骨的鎚骨，三小聽骨再將聲波轉化成耳蝸內的液體波；內耳是由半規管、前庭及耳蝸所組成，耳蝸的形狀就像蝸牛外殼一樣，其內部充滿淋巴液，在基底膜上充斥著聽感細胞，耳蝸對聲音的頻率接收由內圈到外圈如圖四右邊所示為200Hz到20000Hz，即為人類聽覺頻率的接收範圍。

圖4 耳朵之生理結構
（圖片來自網路）

有了上述基本認知，接著介紹最常用之聲特徵參數-梅爾倒頻譜係數，聲特徵參數的使用是要為了減少語料占據硬體成本，若能有效表示該語料且為較低的資訊量，在成本和可攜性都佔有優勢，這就是聲特徵參數的好處。
圖5為梅爾倒頻譜系數擷取的流程圖，我們將語音訊號X（n）經過加視窗的動作將語音分成一段一段的音框（常用的音框單位是10微秒），再將音框經過快速傅立葉轉換到頻域，接著經過梅爾濾波器取對數，再經離弦轉換成梅爾倒頻譜頻譜係數。我們可以看到梅爾濾波器是由多個三角濾波器所組成，這些三角濾波器的頻率是由低至高（因為人類聽覺對於低頻的聲音有較高解析度，對高頻的聲音解析度較低），梅爾倒頻譜係數就是考量人類聽覺解析度的變化來設定濾波器，充分表現人類聽覺的特性。

圖5 梅爾倒頻譜系數（MFCC）之擷取流程
（圖片來自網路）

語音辨認是一種利用機率方式來組成語句的數學模型，我們將語句中最小的單位-音素看成是每一個狀態，而隱藏式馬可夫模型（HMM）是將這些隱藏狀態變化透過聲特徵參數以機率的方式記錄下來，每一個狀態都是不同的高斯混合模型所組成，隱藏式馬可夫模型考量前後關係的變化是語音辨認最常使用的基礎模型。語音辨認就像語言學習一樣要有字母、文法才能構成一段完整的句子，我們利用語言字典將音素組合成對應的字，而語言模型則是將訓練時使用過的字，以統計的方式記錄下來，並以機率大小表示發生的可能性。如圖6所示，當測試語句進入模型時會根據文法、語言字典及隱藏式馬可夫模型辨認該語句說些什麼。

圖6 語音辨認
（圖片來自網路）

隨著科技進步，實現理想機器人離我們越來越近，故人機界面是首要發展的基本溝通媒介，而自然語言辨識（NLU）是讓機器模擬人類的思考方式以辨別說話者語意，進而判斷、做出該有的反應，這種技術通常也搭配外部輸入裝置來達到更好的效果。圖7為語音對話系統的架構，我們藉由語音或其他裝置輸入命令，透過各種辨識器讓系統瞭解使用者的意思，並利用對話管理技術做出相對反應，最後再合成出聲音給使用者聽，這樣看來就像人類和機器對話一般。

圖7 語音對話系統
（圖片來自網路）

（二）語音技術發展之功能與需求
以下列出語音技術於各種應用發展的功能需求，包括：
‧人機互動裝置
　- 機器人互動界面：語音辨認、語音合成、音源判斷、語者辨認、多語言辨認及雜訊處理
　- 聲控電子產品、智慧型居家電生活：語音辨認、多語言辨認及雜訊處理
‧ 車機人機界面
　- 行動導航、語音控制界面：語音辨認、合成及雜訊處理
‧通訊網路應用
　- 語音總機、客服中心及語音掛號：語音辨認、語音合成以及語者辨認
‧保全系統
　- 門禁系統：語音辨認、音源判斷以及語者辨認
‧語音資料檢索
　- 演講及會議錄音內容標註、摘要：語音辨認、多語言辨認、音源判斷
‧娛樂休閒
　- 語音點歌：語音辨認及雜訊處理
‧廣播系統
　- 語音合成交通及氣象廣播系統：多語言辨認及語音合成

（三）語音模組重要技術分類魚骨圖
圖8為機器人語音功能之魚骨圖，圖9為機器人語音技術之魚骨圖，圖10為機器人語音技術詳細研究題目與技術魚骨圖，其列出發展語音模組的重要技術分類魚骨圖。

圖8 機器人語音功能魚骨圖
資料來源：臺北科技大學語音實驗室

圖9 機器人語音技術魚骨圖
資料來源：臺北科技大學語音實驗室

圖10 機器人語音技術詳細研究題目與技術魚骨圖
資料來源：臺北科技大學語音實驗室

圖11為語音模組的所需的各種零組件：

圖11 發展語音模組所需求之重要零組件魚骨圖
資料來源：臺北科技大學語音實驗室

圖12為發展語音模組的所需的各種軟體：

圖12 機器人語音模組廠商供應鏈
資料來源：臺北科技大學語音實驗室

二、語音模組/技術之市場趨勢與動態
隨著電腦，內嵌式系統及手機的處理能力越來越強，語音控制人機界面越來越可能實現。尤其在機器人應用情境，其可提供Hand-free與Eye-free，與不需學習的操作便利性，因此是機器人人機界面的最佳選擇。
（一）主要供應商與研發單位之能量特色
表1為語音模組/零組件主要供應商。

表1 模組、零組件之主要供應商

€

資料來源：臺北科技大學語音實驗室

表2為主要研究發展單位。

表2 模組、零組件之主要研發單位

資料來源：臺北科技大學語音實驗室

綜觀這些廠商，我們可以發現都是在語音研究上常見的公司，主要原因是從事語音研究最重要的就是語料庫，而每一套語料庫都是必須負擔的成本，因此有學者在研發利用能有效涵蓋其它語料庫的方法，由這些研發單位、廠商的發展概況，我們可以看到華語也是一塊語音市場。其中英國劍橋大學所發展的工具-HTK，是一般學術最常使用的工具，其授權已被微軟所購買，因此若要降低購買專利之成本，須自行製作開發工具。

（二）台灣語音模組/技術之發展概況
表3為台灣廠商的發展概況。

表3 廠商模組、技術的發展狀況

資料來源：臺北科技大學語音實驗室

表4為台灣學界的發展概況與各項研究重點。

表4 學界模組、技術的發展概況

資料來源：臺北科技大學語音實驗室

結論
藉由本文之介紹，我們可以瞭解許多語音技術與模組的基礎知識與應用，尤其可增加語音辨識技術的入門知識，從圖9至圖12之說明，瞭解機器人語音技術及其零組件/模組之應用需求；表1至4，可以概觀目前台灣與世界各國家之廠商，及台灣學術單位，目前語音模組/技術的發展概況。
語音辨識有許多種不同的層面與技術，存在許多可深入研究之方向，不管是從電視電影看到未來科技的應用，還是已經使用過當前生活中的語音辨識功能，都可以體會與想像到語音技術帶來的便利性，但以目前台灣人民生活的實際應用情況，仍不是很常見語音技術之應用，故在語音結合其他產品的發展與市場皆有很大的發展空間。就機器人發展而言，要讓機器人更融入我們的生活，定要設計便利之控制方式，讓機器人可以瞭解人類命令之需求，也可以讓機器人正確地完成我們要求的動作。語音控制為一個便利之遙控方式，但各國語言特性不相同，即便是使用國際共通之英文、中文等，也會受到各地方言與口音影響，而使語音辨識率降低，再者不會要求每個使用者都得先經過操作命令的語言學習訓練，因此每個國家、每種語言都需要有自己的語音研究，才得以實現更便利之人機界面。

資料轉載於機器人世界情報網