希望機器人像人,一直是人們對機器人的期待,其中,像人的基本要求,就是得與人類一樣,具有基本的感知能力。然而,這樣的期待是看似簡單卻不易實現的一件事。箇中的原因很多,有很多的問題在於,如何以人類環境中的材料或人類理解的原理,來複製或模仿人類的能力。而人類似乎至今仍無法獲得可行且有希望的方法。
隨著科技的日新月異,以及電腦及微處理器等相關系統之功能不斷增強,人工智慧的理論與技術也日漸成熟,人工知覺系統之研發也越來越受重視。然而,目前發展的人工視覺系統多為單或雙攝影機系統,如欲像人雙眼之立體視覺、自動變焦聚焦等,不僅材料及構造上不易實現,甚至其計算及學習也非常複雜。而人工聽覺系統,也無法像人耳(或許多動物的耳朵)可以輕易接收音訊後,同時完成音源方位及語音內容之辨識。此外,觸覺及其他感覺之開發,也都還在起步階段,要整合多個感知系統於一身,實屬不易。
讓機器人同時具有視覺、聽覺、語言溝通及其他感知判斷之能力,是我們必須努力的研究目標。如同生物必須靠各種感官來感知環境,才較易於環境中生存及應對;以人類 、嗅覺等,相對在危急狀況發生時,將缺少即時感知應對的靈活性。
因此,本研究設計並整合多種感知功能於人形機器人上,包括(1)視覺感知:利用顏色特徵、物件大小及相對位置判別,對目標物及障礙物進行影像辨識。(2)聽覺感知與語音功能:提供人形機器人音訊方位辨別及音訊感知、溝通之能力,以特定語音語句及呼叫聲,於機器人間或與人傳遞訊息及溝通。(3)觸覺感知能力:設計足部力(壓力)感測器,提供機器人感測足底與地面間的接觸力,用以平衡機器人行走時的姿態;另感測足踝與物體之接觸力,提供接觸動作之力道控制之用。(4)平衡感知:以陀螺儀、各軸力矩感測器,提供姿態傾斜角度之量測,並計算各軸之力矩,以便進行運動平衡之迴授控制。(5)方位感知:以電子羅盤提供人形機器人之方向感,在無任何參考點的情況下,亦可使機器人以方向行走或搜尋;另結合視覺之特定物件特徵之判別、多機器人間之通訊,來達成方位感知之功能。

機器人的視覺能力
機器人與人或許多動物一樣,其運動及基本動作大多倚賴視覺功能,以視覺迴授控制方式來達成精確動作之控制。以模仿人類行走為例,欲進行前進、後退等步行功能,我們可設計使人形機器人驅動一固定模式之多軸關節運動,即可執行跨行前進或後退之動作;然而,如果前方有障礙物或機器人依任務及環境資訊應進行轉彎、追隨或執行指定動作時,則勢必要仰賴視覺功能來進行環境感知之計算。
以影像處理技術來進行目標物(或障礙物)之偵測方式,較常用的是利用反覆演化曲線的方式來達到輪廓偵測的目的。曲線演化的傳統方法是將一個初始的輪廓(contour)或曲面(surface)朝著欲偵測的物件邊界(boundary)作演化,這些主動式輪廓追蹤普遍上是利用能量最小化的方式,將可變形的模組(deformable models)對映(match)到影像資料上,像是Kass等人提出了所謂主動式輪廓追蹤法(active contour models – Snakes),該演算法係將平面曲線先進行參數化後,以能量函數最小化為基礎做曲線演化。
此外,許多進行環境偵測的研究,會使用許多物理感測裝置包括了超音波、雷射光、雷達等,這些方法或多或少均有不同缺點,如搜尋角度太小,搜索距離太短,角度解析度不夠高等,為了解決這些問題,大部分研究會結合視覺伺服技術:例用以連續的單眼影像序列,分析物體的運動來偵測動態物體,或進一步利用雙眼立體視覺,三眼視覺,多眼視覺來進行環境偵測。更進一步,也有一些學者結合多種方法,如Lueng等人同時利用單眼及雙眼立體影像,進行自走車在室外環境的移動檢測;Lorigo等人發展的系統則包含了三套獨立的視覺模組(包括邊界模組、RGB模組及HSV模組),利用此三套不同且獨立的模組所得到的物體邊界,再結合成單一的物體邊界。此外,如Xie使用結合測距儀及CCD camera,可用來擷取障礙物的三度空間資訊。
機器人視覺伺服系統常見的定義有兩種:第一種是將取像裝置所拍攝到的物體影像作為迴授信號,構成一閉迴路系統。對機器人而言,其取像裝置及影像擷取設備抓取一目標物之過程為一開路系統,但是若是從取像裝置所擷取之目標物影像可以估測出目標物之於空間中的位置,則可構成一條位置迴授路徑,因而透過影像系統抓取一目標物之過程就可變成閉迴路控制系統。
第二種則是視覺追蹤系統,用以因應目標物的移動而自動調整取像裝置所拍攝的角度或位置,使得目標物影像能維持在螢幕(影像平面)中央。其中,在許多即時視訊(Real-time video)的應用中,其所謂之影像追隨(Image tracker)之作用是指在連續的影像中,以一適當大小的視窗將移動之目標物影像標定;至於拍攝影像之取像裝置是否移動,則是另一個研究問題。而這些影像問題,都需要在精確的攝影機參數校正後,才能獲得正確的影像定位及進行視覺追蹤,其運算複雜度相當可觀。

機器人的聽覺能力
機器人的聽覺功能多利用取音裝置(如麥克風)接受聲波後,轉換成電壓來進行語音及語意之辨識,這如同人類的耳朵接收到聲音,轉換成訊號刺激大腦一般。
由於聲波大多透過空氣進行傳遞,然而在一密閉的環境中(如展覽館、辦公室等),空氣成分及分佈往往造成聲波傳遞之干擾(如灰塵造成折射、空間造成反射等),這些因素會降低音訊接收及辨識之效能。大多使用免持式麥克風陣列來取代有線式麥克風的語音辨識系統,可克服環境噪音和回音對語音訊號的影響,還原出較乾淨的語音。同時由於此一技術並非針對特定噪音環境,可於任何噪音環境下,得到令人滿意的效果。因此陸續有許多研究機構投入此一領域進行相關研究。近幾年麥克風陣列的發展,可以分成立體式和平面式。
立體式麥克風陣列的優點在於可多方偵測說話者的方位,於音源方位判斷上可獲得較精確之結果;但同時卻因計算時,須用到三維的快速傅立葉轉換,增加了運算上的複雜性與花費時間。因此,多數研究使用平面式陣列,讓聽覺系統可快速反應,減少計算的繁雜。
此外,許多研究針對麥克風陣列所需之最佳麥克風個數,以及麥克風間的相對配置情形,進行討論及實驗。研究結論發現,設計單一平面由4顆各相距5cm的麥克風陣列,以正方形矩陣方式配置,來接收四個面的聲音進行音源判定為最佳方式。
聲音的定位包含了許多必須考量的因素,例如:環境噪音、空間反射或空間迴響。在硬體的實現上使用麥克風陣列來抑制環境噪音,設計濾波器來減少高頻部份的回音與反射,可以得到不錯的效果。然而搭配演算法上的補償或是抑制雖然可以達到更好的效果,但在系統的複雜度上也增加許多。
近來對於聲音源定位的方式,大多使用明確的語音模組來進行,包括頻域與時域的模組。在頻域部份,接收到的聲音訊號的週期性被考慮用來改善頻譜評估。時域的方法為預測錯誤的結束時聲帶震動的週期。然而,現今大部分研究結果顯示在語者的方位上,只能以幾個大略的角度來區分出語者可能所在的位置,而區域間的角度差約為15度至30度左右,原因在於計算聲音到達麥克風陣列間的延遲關係時,由於聲音在聲波中的相當快速且密度高,當兩個發出聲音的位置點相差幾度而已時,得到的延遲關係係數相差非常小,不足以影響判定的結果。

模糊語者定位系統
我們可使用如圖二之語者音源定位系統來當成機器人之聽覺系統。其中,大致可分成音訊接收系統、資料擷取系統及音源方位判定系統。在音訊接收系統部分,主要是用來接收聲波訊號,這裡的外部麥克風陣列是由數個電容式麥克風排列構成。由於電容式麥克風接受到聲音訊號轉換成電壓的變化量非常小,所以必須經過放大處理後才能得到較為明顯的訊號來方便處理。而因人聲的音頻多集中在20~20kHz間,因此本研究使用帶通濾波器來濾除掉人聲部分以外的頻率範圍,來避免接收到通訊器材發射的高頻雜訊等等。
此外,訊號進入音源方位判定系統時,首先判斷是否為有聲段,將麥克風訊號經過編碼後轉換成數位訊號,比較這四個數位訊號值得到兩個較大的值,這表示音源較靠近這兩組的位置,以這兩個值作為語音模糊控制器的輸入,並且以能量較大的那組為參考角度 ,經過語音模糊控制器計算,獲得補償角度 ,兩個角度相加之後即得機器人與語者之間的夾角,可視為主要語者之音源方位。
經過實驗測試後,我們發現在一般室內空間中,語者如分別在0~10公尺的距離上發話,取音裝置得到的音訊振幅大小大約為0~3V。因此,系統設計可以0~3V進行音訊編碼,以16位元的二進位編碼產生數位化音訊,並將此四組振幅分別平均之後得到四個平均電壓,以二進位表示得到四個數值,比較數值大小後,將會得到較大的兩個值,即表示音源是接近這兩個分組,因此有較大的振幅反應。

經過一系列的測試後發現,當語者的方位在0與180的狀態下(也就是在人臉正前方與正後方的相對位置),語者方位辨識的結果會有重疊的可能,導致分辨不出是在機器人之前方或是後方,因此我們進一步比較正前方及正後方之兩組音訊之平均值,較大者即為語者的位置,但這樣的判斷仍有不同程度之誤差,也是目前我們發展之系統尚未克服的問題之ㄧ。
此外,機器人完成音源方位判別後,可再利用語音辨識技術,使機器人能與近端使用者進行語音溝通,或讓人可以利用語音指令進行機器人之即時操控。同時,機器人透過語音辨識,來了解受服務對象之意向及所需服務之內容,可執行滿足受服務者需要之幫助或任務,達成機器人與人互動及服務之功能。

人形機器人之平衡感知及觸覺
目前大多有關人形機器人的研究,仍著重探討如何使其穩定的行走,此乃因行走之驅動及平衡控制,為多軸運動動態規劃設計之基本問題。人形機器人的行走方式大致可分為主動式與被動式兩種。主動式行走就是在人形機器人上安裝許多致動器,例如馬達,然後在控制致動器的動作;而被動式的行走則是利用人形機器人本身的重力及慣性來達成運動。
Murakami等人利用模糊控制達成人形機器人的行走控制,使用人形機器人重心位置及各關節馬達的角速度與角度作為模糊控制器的輸入,並將模糊控制器分成用於支撐腳與自由腳兩種來達成對人形機器人之主動式行走控制。Kim等人提出利用ANFS(Adaptive Neuro-Fuzzy System)將人形機器人行走時ZMP(Zero-Moment Point)的移動路徑建模,並且實現在一隻擁有十個自由度的人形機器人上,且根據實際環境的地形變化來學習調整模型,使人形機器人能克服不同地形與坡度。
基於神經科學的觀點而言,人類在行走的時候,每一個關節所旋轉一連串的角度可以視為是一個具有週期性的訊號,而這些訊號都是屬於一種反射動作。是故,有研究就利用模擬生物體的中樞模式產生器(Central Pattern Generator, CPG)來控制機器人的運動。許多研究透過模擬與實驗,證明基於CPG的機器人運動控制方法是有效的。此外,也有提出以數學模型計算每一個時間點人形機器人的各關節旋轉角度之演算法,同時整合穩定性分析與控制,並成功實現在真實機器人上。
此外,通常在進行控制器設計之前,大都需要一能夠表示受控體的數學模型,才能以解析方法設計合適的控制器。但在實際的應用上,受控體的數學模型通常是難以找到或是過於複雜而難以表示,其中,多自由度之兩足機器人也屬此一類型。所幸,藉由類神經網路即時學習的能力,我們所設計之控制器可在受控體模型未知的情況下,直接套用至實際的系統中,讓控制器根據輸入映射出適當的修正量,使機器人達成姿態平衡。
對於運動上的控制,本研究預先設定的各關節在每一時間點所應旋轉的角度,並將該資料建表。此外,我們設計一個類神經網路的平衡控制器,針對目前機器人的姿態進行調整,其中該控制器主要的輸入訊號由一個兩軸陀螺儀提供,該陀螺儀安裝在機器人軀幹之中心點,分別感測機器人橫向與縱向之傾斜角度。整體系統方塊圖如圖三所示。其中,圖中Motion Data表示各關節的旋轉角度參數,經由類神經網路控制器修正之後,再輸入給機器人;而控制器的回授訊號則由陀螺儀量測得到。值得注意的是,我們所設計之類神經姿態平衡控制器為即時學習,不需要預先準備訓練資料使得控制器達到收斂狀態才能使用在真實的系統上。

人的觸覺功能大致包括接觸、滑動及壓覺等機械刺激。多數動物的觸覺感知器是遍佈全身的,像人們的皮膚分佈於全身體表,其皮層之游離神經末梢能感受溫度、痛覺、觸覺等多種感覺。相對來說,觸覺為人們非主動接受外界信息量最多的感官,但卻不是主要的主動式感官。不過,在許多昆蟲或甲殼類動物上,其觸覺器官卻集中在頭部的觸角中:像蟋蟀與蝦的觸鬚有身體長度的2.5至3倍,牠們依靠長觸鬚可確認遠處物體所在的位置,並可判別其大小。
然而要使機器人具有動物那樣敏感的觸覺是相當困難的,目前機器人身上裝設的觸覺感測器多用以判斷接觸力或壓力,以多感測陣列識別物體的形狀和相對空間的位置,多半的設計集中在手部,主要以機械式手指來進行觸覺控制之研究。由於觸覺感知多以壓力、力或加速度、或接觸式量測等方式來實現,透過接觸力迴授訊號的量測,可提供機構控制力之計算。
其中,Shomoga等人探討手指力及接觸之力迴授訊號,並應用於機械手指之研究;Zhang等人針對機器人之觸覺感測器,提出以類比抗力技術(Analog resistive technology)來設計複合式觸覺感測器。Kageyama等人則針對人形機器人設計一穩定分散式感測器,提供機器人與物體接觸之感知資訊,並藉以使機器人得以產生穩定且適切之運動控制。
本研究之機器人的觸覺功能,則利用裝設在機器人足底平面的壓力感測器(FlexiForce A201),來進行機器人腳底與地面接觸力之量測。其次,透過公式計算得到零力矩和點(ZMP)及記錄已知兩足機器人的行走步伐之零力矩和點的移動軌跡,來評估及控制機器人之姿態,達成平衡且穩定之運動步伐。

多感知系統之整合
客觀世界的環境充滿著各種事物,人類透過自己感官(視覺、聽覺、觸覺、嗅覺和味覺)能感知到豐富多彩的事物及訊息。由於各感知系統均提供部分之資訊,必須透過大腦(於機器人則為智慧決策系統)加以分析與整合,才能將這些訊息歸納出訊息所要表達的事物,因此感官可說是智慧的來源。由於視覺和聽覺是人們感官中最主要的部分,根據統計人們接受外界訊息有70%來自視覺系統;而人類之間的訊息交流主要透過聽覺來進行。因此,如何將視覺及聽覺系統進行設計與整合,將是多感知系統及感知程序實現之關鍵,也是機器人是否具有智慧的重點之一。
目前多感知系統應用在機器人的研究大多為感測環境物件及規避障礙物之用,例如Yoshikai等人於 2003 年發表之研究,提出以行為導向建構人形機器人之多感知系統,利用行為相對之反射感知訊號來整合多種感知系統,並以ABC-Net(Attention-based conditional network)方法來學習感知訊號與相對應行為之關係。此外,Aramaki等人則設計了一整合視覺、聽覺及語音功能之人形機器人,以多處理器設計使機器人可以與人對談互動。之後 Aramaki等人另於 IECON 2002針對其多處理器平行計算多感知功能,提出整合控制器之設計架構,並以多任務分工控制的設計方式,如同人們處理各類訊號般地完成人形機器人之多感知控制。Ogata等人則提出一人形機器人,可透過聲音、軌跡及觸覺等多感測器之整合設計,使其手臂碰觸或移動物體。該人形機器人係以RNNPB之倒傳遞類神經網路架構設計,對未知的物件或軌跡,均可自我學習完成適應性控制。
一般而言,視覺系統接受外部世界的二維影像的訊息,透過處理(或轉換成三維資訊)可以產生有意義的物體描述。聽覺辨識系統則接受語音訊號(聲波),透過處理與分析,來將該訊息轉換成有意義的語句結構。它們的訊息處理過程,大致上來說都是一種分類的處理,這種分類過程通常是分層來進行的。例如,為了識別一幅景物,先要識別各種輪廓線,然後組合這些線條表示出若干物體(及其影子)的形狀,最後將它們依特徵分類處理,再組合產生出房子、場院等全貌之影像物件。另外如欲分析一個語音敘述,則需先識別出每個聲音音符,然後將音符(單音)組成單字,再將單字組成有含意的句子結構。這些層次分類過程,將完全對應人類感知外部世界之訊息處理的層次結構。
然而實際上,我們對某一個輸入訊號按層進行分類的過程,要比上述描述來得複雜且困難,主要的原因包括(1)在每一個層次中進行分類的過程,往往是會相互關聯的(但許多處理往往分頭進行);(2)感知輸入訊號的許多特性是相對的,因而難以使用絕對的模式匹配技術。(3)在現實世界中,幾乎不可能一次只單獨感知一個個別的訊號,例如語音辨識問題中,目前語音辨識系統多可精確理解單個單字,但卻往往不易精確識別多單字之連續語音,類似的問題也出現在影像理解上。同時,帶有各種雜訊的感知訊號,也將給識別整合帶來困難。
雖然有這樣的問題存在多感知系統中,然而若能利用學習演算,對系統建立累積經驗並歸納分析的學習機制,來整合各項感知資訊,將不失為性能改善的方式之一。透過好的教導及訓練,往往可以將各感知訊號的意義加以篩選組合,產生較為可靠有用的資訊,供其他系統使用。以機率的觀點來看,如同打靶問題一般,打中靶的成功率會隨著射擊次數越多而快速提高。因此,多個感知系統提供各項感知資訊,進行整合設計後,應可提高辨識準確度,且可免除單一感知系統發展的極限及障礙,截長補短,進而達到多感知整合之目的。
以上資料來源:南台科技大學 機器人研究中心 謝銘原.張格豪.黃紀仁
arrow
arrow
    全站熱搜

    機器人 發表在 痞客邦 留言(0) 人氣()