引論:我們為您整理了13篇語音識別技術范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
語音識別技術:是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高級技術。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),其最終目標是實現人與機器進行自然語言通信。
不同的語音識別系統,雖然具體實現細節有所不同,但所采用的基本技術相似,一個典型語音識別系統主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。
(一) 語音識別單元的選取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛應用于中小詞匯語音識別系統,但不適合大詞匯系統,原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。
音節單元多見于漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,并且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對于中、大詞匯量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統也在越來越多地采用。原因在于漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由于協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
(二) 特征參數提取技術
語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數盡可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反)。從信息論角度講,這是信息壓縮的過程。
線性預測(LP)分析技術是目前應用廣泛的特征參數提取技術,許多成功的應用系統都采用基于LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術,語音識別系統的性能有一定提高。
也有研究者嘗試把小波分析技術應用于特征提取,但目前性能難以與上述技術相比,有待進一步研究。
(三)模式匹配及模型訓練技術
模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數,而模式匹配則是根據一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
DTW是較早的一種模式匹配和模型訓練技術,它應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應狀態觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型參數包括HMM拓撲結構、狀態轉移概率及描述觀察符號統計特性的一組隨機函數。按照隨機函數的特點,HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數,簡稱DHMM)和連續隱馬爾可夫模型(采用連續概率密度函數,簡稱CHMM)以及半連續隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講,在訓練數據足夠的,CHMM優于DHMM和SCHMM。HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經元網絡在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個有HMM模型的動態時間歸正性能。因此,現在已有人研究如何把二者的優點有機結合起來,從而提高整個模型的魯棒性。 二、語音識別的困難與對策
目前,語音識別方面的困難主要表現在:
(一)語音識別系統的適應性差,主要體現在對環境依賴性強,即在某種環境下采集到的語音訓練系統只能在這種環境下應用,否則系統性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。
(二)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。
(三)語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續語音識別中是非常重要的。
(四)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等分面的認識還很不清楚;其次,把這方面的現有成果用于語音識別,還有一個艱難的過程。
(五)語音識別系統從實驗室演示系統到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術等等技術細節要解決。
三、語音識別技術的前景和應用
語音識別技術發展到今天,特別是中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以制成專用芯片,大量生產。在西方經濟發達國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網絡用語音識別口語對話系統查詢有關的機票、旅游、銀行信息,并且取得很好的結果。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
參考文獻
[1]科大訊飛語音識別技術專欄. 語音識別產業的新發展.企業專欄.通訊世界,2007.2:(總l12期)
[2]任天平,門茂深.語音識別技術應用的進展.科技廣場.河南科技,2005.2:19-20
[3]俞鐵城.科大訊飛語音識別技術專欄.語音識別的發展現狀.企業專欄.通訊世界,2006.2 (總122期)
篇2
目前上海地鐵
一、
二、
三、
五、
六、八號線在車輛信息顯示系統的設計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統。如果在每個車門的上方安裝車站站名動態顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節車廂外側顯示列車的終點站,良好的工業設計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務的形象。由于在設計以上地鐵列車時,受科技發展的限制。現在上海地鐵4號線在車輛信息顯示系統的設計上滿足了廣大的乘客的需求,
增加了車站站名動態顯示地圖。
如何在現有的地鐵車輛上增加地鐵車廂內的乘客信息顯示系統和車廂外側的列車信息顯示系統,如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統的應用,設計方案的選擇極其重要,目前的乘客信息顯示系統比較復雜,例如:對于應用在某條線路上的聲音識別系統,不僅要修改原語音文件,而且聲音識別器不容易操縱,
對使用者來講仍然存在比較多的問題。對于應用在某條線路上數字傳輸顯示系統,其操作方法不僅給司機帶來了任務,每站需要手動操作二次,同時顯示的相關內容沒有實時性,總之乘客信息顯示系統比較落后。
設計一種符合現代化要求的乘客信息顯示系統是非常必要。
2.設計
地鐵車輛乘客信息顯示系統的設計,采用CMOS語音識別大規模集成電路,識別響應時間小于300ms。HM2007芯片采用單片結構,如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內,這樣電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。
針對目前上海地鐵列車在車廂內外無LED動態站名顯示而設計,通過將列車車廂廣播的模擬信號轉換成數字信號,自動控制LED發光二極管,在列車在車廂內使得廣播的內容(每個車站站名)與發光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務水平。在國外的地鐵列車上應用已相當普遍。
語音識別顯示器①的輸入端與車載廣播功放器相連接,實現廣播模擬信號發出的語音進行車站名的自動識別。不需要編程技術和修改文件等方法,全部采用硬件方法設計。整個系統分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過麥克風或(結合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉變成數字方波信號,對語音輸入進行開關量的控制,確保在T<0.9秒內的正確輸入語音字長。
(2)語音識別部分:
利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經固化了語音語法技術)對語音的存儲及語音語法算法進行控制。HM2007的詳細內容見產品說明書。
(3)噪音濾波部分:
濾波功能是自動識別(阻擋)我們在設計階段設計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風的工況下),以確保輸入語音的可靠性、穩定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。
(4)執行顯示部分:
將車廂廣播喇叭的模擬信息通過語音識別器轉變成數字信息,最終經過譯碼電路、4/16多路數據選擇器及RS485接口,去控制車廂內車門上十個LED顯示面板,如圖6。
(5)錄音功能部分:
在進行廣播內容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠程音頻電路控制技術進行按動相關按鈕,選擇地址然后自動錄入內容,如圖6。
3.結論
語音識別器及LED顯示面板的設計,能應用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內任何電器為特點,僅提供110VDC電源和音頻輸入接口。
本項目的開發具有一定社會效益,得到國內外乘客和殘疾人員的歡迎,提高了地鐵服務質量。
參考文獻:
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成電路實用大全上海科技普及出版社
3.①獲得“2003年上海市優秀發明選拔賽三等獎”
篇3
近年來,隨著科學技術的進步,語音識別技術的發展,通過語言操縱機器的夢想正在逐步變為現實。語音識別是語音信號處理的一個重要的研究方向,經過50多年的積累研究,尤其是近20年來,語音識別技術取得了顯著進步,并且廣泛應用于商業,比如蘋果的siri系統。本文從語音識別的發展歷史、發展方向來著重分析未來語音識別技術的發展趨勢。
1 語音識別技術的發展歷史
1.1 語音識別技術在國際的發展
早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT& T Bell實驗室研發的Audry系統第一個實現了可識別十個英文數字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創造出可以實現特定人孤立語音識別系統;80年代和90年代是語音識別技術應用研究方向的,HMM模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發出相當成功的商業應用語音識別系統,比如,Apple的Siri系統,微軟的Phone Query (電話語音識別)引擎等。
1.2 語音識別技術在國內的發展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰。但是,國內研究機構在進行理論研究的同時,應注重語音識別系統在商業中的應用,加快從實驗室演示系統到商品的轉化。
現如今,許多用戶已經能享受到語音識別技術帶來的方便,比如智能手機的語音操作等。但是,這與實現真正的人機交流還有相當遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機交互上還存在一定的問題,語音識別技術還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業應用,這也是未來語音識別技術的發展方向。
2 語音識別技術的技術實現及困難
語音識別技術的實現方式是聲音通過轉換裝置進入機器,而機器配有“語音辨識”程序,程序將得到的聲音樣本與數據庫存儲的樣本進行比對,輸出最匹配的結果,轉化為機器語言,進而執行命令。真正建立辨識率高的語音辨識程序組,是非常困難而專業的,專家學者們研究出許多破解這個問題的方法,如傅立葉轉換、倒頻譜參數等,使目前的語音辨識系統已達到一個可接受的程度,并具有較高辨識度。
2.1 語音識別的技術實現方式
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面,其中,最基礎的就是語音識別單元的選取。
(1)語音識別單元的選取。語音識別研究的基礎是選擇語音識別單元。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種語音識別單元由具體研究任務的類型決定:
單詞(句)單元在中小詞匯語音識別系統中應用廣泛,但由于模型庫過于龐大,模型匹配算法復雜,實時性不強,所以不適合大詞匯系統;
音節單元主要應用于漢語語音識別,因為漢語是單音節結構的語言,雖然有大約1300個音節,但無調音節共408個,相對較少,所以音節單元在中、大詞匯量的漢語語音識別系統上是可行的。
音素單元之前曾廣泛應用于英語語音識別,也越來越多的應用于中、大詞匯量漢語語音識別系統中。原因在于漢語音節僅由22個聲母和28個韻母構成,把聲母細化,雖然增加了模型數量,但是提高了易混淆音節的區分能力
(2)特征參數提取技術。特征提取就是對語音信號進行分析處理,把豐富的語音信息中的冗余信息去除,獲得對語音識別有用的信息。這是一個對語音信號進行信息壓縮的過程,目前經常采用的特征參數提取技術是線性預測(LP)分析技術。基于LP技術提取的倒譜參數再加上Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜對人耳處理聲音的模擬,進一步提高了語音識別系統的性能。
(3)模式匹配及模型訓練技術。早期的語音識別應用的模式匹配和模型訓練技術是動態時間歸正技術(DTW),它在孤立詞語音識別中獲得了良好性能,但是由于對大詞匯量以及連續語音識別的不準確,目前已經被隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)所取代。
2.2 語音識別遇到的困難
目前,語音識別研究工作進展緩慢,困難具體表現在:
(一)語音識別系統對環境敏感,采集到的語音訓練系統只能應用于與之對應的環境,而且當用戶輸入錯誤時不能正確響應,應用起來相對困難;(二)必須采取新的新號處理方法來處理人在高噪聲環境下的發音變化的問題;(三)語言模型、語法及詞法模型在中、大詞匯量連續語音識別中無法正確、合理的運用,需要有效地利用語言學、心理學及生理學等方面的研究成果;現階段的科學技術對人類生理學諸如聽覺系統分析理解功能、大腦神經系統的控制功能等還不夠,更無法應用于語音識別;語音識別系統從實驗室演示系統向商品的轉化過程中還有許多具體細節技術問題需要解決。
3 語音識別技術的發展趨勢
3.1 進一步提高可靠性
目前語音識別系統很難做到排除各種聲學環境因素的影響,而人類語言在日常生活中的隨意性和不確定性給語音識別系統造成極大的識別困難。所以,要應用現代技術智能化語音識別系統,以達到更好的識別效果;
3.2 增加詞匯量
目前語音識別系統使用的聲學模型和語音模型過于局限,需要通過改進系統建模方法、提高搜索算法的效率來做到詞匯量無限制和多重語言混合,減少詞匯量對語音識別系統的限制;
3.3 微型化并降低成本
語音識別系統在商業上的用途相當廣泛,利用先進的微電子技術,將具有先進功能和性能的語音識別應用系統固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語音識別系統和微電子芯片技術的發展將引領信息技術革命到一個新的臺階。語音識別系統使人溝通更加自由,使人可以方便地享受到更多的社會信息資源和現代化服務。這必然會成為語音識別技術研究和應用的重要發展趨勢。
4 結束語
21世紀,信息和網絡飛速發展,信息和網絡的時代已經來臨,人與人之間的距離隨著Internet和移動電話網的連接和普及變得越來越近,信息資源擴散的越來越迅速,人與機器的交互顯得尤為重要。語音識別技術的研究和應用可以讓人無論何時何地都可以通過語音交互的方式實現任何事,可以使人更方便的享受更多的社會信息資源和現代化服務,所以,如何將這一技術可靠的、低成本的應用于商業和日常生活,是語音識別技術的發展方向和趨勢。
參考文獻:
[1]劉鈺.語音識別技術概述[J].計算機光盤軟件與應用,2010:14-17.
[2]盛青.語音自動識別技術及其軟件實時實現[J].西北工業大學,2001:45-47.
[3]廖锎.淺析語音識別技術的發展及趨勢[J].科技傳播,2010:34-36.
篇4
1 引言
語音識別起源于20世紀50年代AT&T貝爾實驗室的Audry系統,它第一次實現了10個英文數字的語音識別,這是語音識別研究工作的開端。作為一門交叉學科,它正逐步成為信息技術中人機接口的關鍵技術,被認為是2000年至2010年間信息技術領域十大重要的科技發展技術之一。語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,取而代之的是以語音輸入這樣便于使用的、自然的、人性化的輸入方式。
2 相關技術簡介
2.1 語音識別技術
所謂語音識別技術就是讓計算機(或機器)通過識別和理解過程把人類的語音信號轉變為相應的文本或命令的技術,屬于多維模式識別和智能計算機接口的范疇。語音識別技術的終極目標就是研制出一臺能聽懂任何人、任何內容的講話的機器。語音識別按發音方式分為孤立詞、連接詞和連續語音的語音識別系統;按詞匯量大小分為小詞表、中詞表和大詞表以及無限詞匯量語音識別;按說話人適應范圍分為特定人、限定人和非特定人語音識別。
2.2 多Agent技術
Agent的研究起源于人工智能領域,Agent具有自治性、社會性、反應性和能動性。智能Agent對自己的狀態和行為有完全的控制能力,它能夠在沒有人或者在其他Agent的直接干預下,對復雜的刺激進行響應并產生內部狀態的控制和適應性的行為,外界通過Agent的接口對Agent實現功能調用和通信,而無需知道Agent內部的具體工作過程。多Agent系統(MAS)由多個自主或半自主的智能體組成,每個Agent或者履行自己的職責,或者與其他Agent通信獲取信息互相協作完成整個問題的求解。語音識別技術本就是人工智能的一個應用方面,而將人工智能的前沿理論―多Agent技術引入語音識別技術中是一項有意義的工作。
3 在語音識別中引入多Agent技術
3.1 多Agent語音識別原理
傳統的語音識別存在自適應問題,對環境條件的依賴性強;噪聲問題,講話人產生情緒或心里上的變化,導致發音失真、發音速度和音調改變,產生Lombard/Loud效應;其它如識別速度問題、拒識問題以及關鍵詞檢測問題。而多Agent技術中自治智能和分布協同的特性能夠在一定程度上解決這些問題。多Agent語音識別其基本原理就是將輸入的語音,經過處理后,將其和語音模型庫進行比較,從而得到識別結果,具體原理見圖1。
該圖中語音輸入Agent就是待識別語音的原始輸入,語音采集Agent指話筒、電話等設備的語音輸入;數字化預處理Agent的功能包括語音信號采樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的噪聲影響等;特征提取Agent用于提取語音中反映本質特征的聲學參數,常用的特征有短時平均能量或幅度、短時平均跨零率、線性預測系數、基音頻率、倒譜和共振峰等。在訓練階段,將特征參數進行一定的處理后,為每個詞條建立一個模型,保存為模板庫。在識別階段,語音信號經過相同的通道得到語音特征參數,生成測試模板,通過模型匹配Agent和規則判別Agent將匹配分數最高的參考模板作為識別結果。同時在模式匹配和規則判別時還可以在很多專家知識的幫助下,以便提高識別的準確率。
3.2 多Agent語音識別流程
加入了多Agent技術的語音識別系統具體實現細節與傳統的語音識別系統有所不同,加入了更多的智能協作的因素,但所應用的識別過程大致相似,具體流程見圖2。
首先是系統中的協調Agent確定語音識別單元的選取。語音識別單元有單詞(句)、音節和音素三種。然后在特征提取Agent中去除語音中對識別無關緊要的冗余信息,目前廣泛應用的有基于線性預測分析技術提取的倒譜參數和基于感知線性預測分析提取的感知線性預測倒譜。接著采用適當的語音識別方法,通過對確定的語音特征進行模型訓練、智能學習后得到模板庫,然后用若干個特征提取Agent將待識別的輸入語音信號的各個量化的特征通過分工協作的方式進行提取,最后模型匹配Agent將量化的語音特征與模板庫進行模式匹配,通過友好的人機界面把識別結果輸出。
4 多Agent語音識別技術在軍事上的應用
最近十年內語音識別技術軍事化應用非常廣泛,目前研究比較多的有語音識別技術在智能武器裝備開發領域的應用、在軍事作戰文書自動化過程中的應用、在軍事測試設備和軍隊話務臺的應用。下面重點介紹多Agent語音識別技術在軍事作戰文書自動化過程中的應用。
作戰文書句式變化不大、語法簡單、使用人群范圍可定、語音識別模板庫易于建立且要求不高,其語音識別易于實現。總體方案是:盡可能統一各軍兵種作戰文書類型;收集不同類型作戰文書實例;構造作戰文書詞匯庫;針對標圖地域構造地名數據庫;建立不同類型作戰文書的句型庫;分析軍隊標號的涵義建立模板庫;將作戰文書編譯成標圖指令來完成軍事地圖的標繪。其一般過程為作戰文書的詞處理、作戰文書的語法分析、作戰文書標圖指令的形成,最后通過API接口傳輸給計算機完成自動標繪工作,如圖3所示。
5 結束語
語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用領域和市場前景,為網上會議、商業管理、醫藥衛生、教育培訓等各個領域帶來了極大的便利。隨著人工智能技術的發展,把多Agent技術應用到語音識別系統中,通過自治智能和分布協同的特性較好地解決了傳統語音識別技術中存在的突出問題,這必將成為語音識別系統發展的主流。
參考文獻:
[1] 胡斌,湯偉,劉曉明.基于自然語言理解的文本標圖系統設計與實現[J].理工大學學報:自然科學版,2005,6(2):132-136.
[2] 趙力.語音信號處理[M].北京:機械工業出版社,2003:215-240.
[3] 王作英,肖熙.基于段長分布的HMM語音識別模型[J].電子學報,2004,32(1):46-49.
[4] 曹承志.智能技術[M].北京:清華大學出版社,2004.
[5] 杜琳.基于COM技術的軍事標圖組件的設計與實現[D].鄭州:信息工程大學,2006.
[6] 朱民雄,聞新,黃健群,等.計算機語音技術[M].北京:北京航空航天大學出版社,2002.
[7] 方敏,浦劍濤,李成榮,等.嵌入式語音識別系統的研究和實現[J].中文信息學報,2004(6):73-78.
篇5
語音作為語言的聲學體現,也是人類進行信息交流最自然、和諧的手段。與機械設各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。
二、語音信號分析與特征提取
1.基于發音模型的語音特征。(1)發音系統及其模型表征。其發聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發生比較低的頻率的振蕩,從而形成準周期性的空氣脈沖,空氣脈沖激勵聲道便會產生一些濁音;聲道的某處面積比較小,氣流沖過時便會產生湍流,會得到一種相似噪聲的激勵,對應的則是摩擦音;聲道完全閉合并建立起相應的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預測倒譜系數。被廣泛應用的特征參數提取技術的就是線性預測分析技術,很多成功的應用系統都是選用基于線性預測技術進而提取的LPC倒譜系數作為應用系統的特征。LPC倒譜就是復倒譜。復倒譜就是信號通過z進行變換以后再取其對數,求反z變換所得到的譜。線性預測分析方法其實就是一種譜的估計方法,所以其聲道模型系統函數H(z)反映的就是聲道頻率激勵和信號的譜包絡,對IHg(z)作反z變換就可以得出其復倒譜系數。改復倒譜系數是依據線性預測模型直接獲得的,而又被稱為LPC倒譜系數(LPCC)。
2.基于聽覺模型的語音特征。(1)聽覺系統模型。一是人類的聽覺系統對于聲音頻率高低和聲波實際的頻率高低不是線性的關系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數關系。二是關于掩蔽效應指的就是聲音A感知的閉值因為另外的身影的出現出現增大的現象。其生理依據主要是頻率群,對頻率群進行劃分會出現許多的很小的部分,每一個部分都會對應一個頻率群,掩蔽效應就發生在這些部分過程中。所以在進行相應的聲學測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數刻度和Kon~nig刻度。其中Mel刻度被廣泛的應用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數。Mel頻率倒譜系數利用人們耳朵的聽覺特性,在頻域將頻率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數。MFCC參數的計算過程:
篇6
由于生活節奏的加快,汽車已經成為了人們生活中重要的工具,人們在車內的時間也更多。同時也希望能夠在車內接收到外界的信息繼續進行工作,還要求汽車有娛樂功能,因此促進了車載多媒體的發展。而車載多媒體傳統的人機交互方式會增加潛在的駕駛危險,為此將語音識別應用于車載多媒體系統中,將會是車載多媒體發展的重要方向。端點檢測、特征參數提取以及識別是語音識別的主要內容,本文也將從這三個方向對車在多媒體系統的語音識別進行研究。
1、端點檢測
在進行語音識別時,首先需要通過端點檢測來對語音信號中的無聲片段和有聲片段進行分割。目前,語音端點識別已經從開始的單一門限發展到了基于模糊理論的判決。但是對于車載多媒體而言,計算量較大、識別響應時間較長端點檢測的方法顯然不使用,所以主要采用基于短平均過零率和短時間平均幅度的方法來進行語音端點檢測,這種方法利用短時間內幅度的檢測和過零率來作為語音端點的檢測。
首先,利用短時幅度可以有效判斷語音端點,同時語音的濁音部分平均幅度會明顯大于噪聲的平均幅度,然后同時再輔以短時過零率的方法來判斷語音開始的濁音,從而進一步對端點檢測進行校準,兩者的結合能夠更加精確的判斷語音端點,并且兩種算法都較為簡單,能夠滿足車在多媒體的需求。
2、特征參數提取
在完成語音的端點檢測之后,需要提取語音的特征參數,然后進行語音識別。目前用于語音特征參數提取的算法主要有LPCC(線性預測倒譜系數)和MFCC(Mel頻率倒譜),由于MFCC具有更強的抗干擾能力等特點,更適合與噪聲較多、司機不能離輸入設備很近的車載環境。
分析MFCC的語音特征參數提取可以分成預加重、加窗、FFT(快速傅里葉變換)、濾波、自然對數提取、自然對數DCT計算這六個步驟。由于MFCC其計算精度以及計算量都較大,因此,使用MFCC作為車載系統的語音特征參數提取時,需要進行相應的改進:
(1)在MFCC實現的六個步驟中,例如加窗等步驟就可以實現進行計算,然后存儲在數組中,在使用時進行查表提取,從而避免每一次語音識別時重復計算,從而加快了計算速度。
(2)FFT需要花費大量的時間(據統計,FFT需要花費MFCC56.32%的時間[2]),由于FFT算法是對復數進行處理,而語音信號的處理只涉及到實數部分,其虛數部分為零,因此增加了運算時間,因此可以利用文獻3所提出的FFT運算方法,將長度為N的FFT預算降低到長度為N/2的FFT運算,從而提高了語音特征參數提取效率。
3、識別模式
語音識別的原理是模式匹配,通過計算現有語音模式與語音模板庫中的模板的距離,來獲得最佳的匹配模式。匹配的方法主要有DTW(動態時間規整)、HMM(隱馬爾科夫模型)和ANN(人工神經元網絡)。由于ANN計算量較大,因此不適合用于車載多媒體系統中,HMM需要繁雜的程序結構,包含眾多功能模塊,需要大量的計算。因此, DTW模式更適合用于車載多媒體系統中。能夠滿足車載系統孤立詞、小詞匯量的語音識別。
為了更好的在車在多媒體系統中的嵌入式平臺上實現DTW,對DTW進行進一步的改進:
(1)由于在語音識別匯總,對音頭和音尾的判斷存在一定的誤差,因此,使用傳統DTW方法在進行固定端點匹配時會存在一定的誤差,從而降低了語音匹配成功率。為此,可以采用放寬端點限制的方法來使用DTW進行語音識別。其主要的思路是取消傳統DTW中對音頭和音尾嚴格對其的限制。從而,只要兩次語音在開始的W幀內能夠匹配成功,同時在結束的W幀內匹配成功,即認為兩次語音匹配成功。在降低了對端點檢測的精度要求,符合車載系統小詞匯量的特點,不會降低車載系統語音識別效率。
(2)在使用DTW進行語音模板匹配時,需要計算兩個模板各幀的距離來計算模板之間的距離。加入模板庫中的某個模板T有N幀,待識別的語音R有M幀,那么通常需要申請M×N長度的空間,再根據兩個模板所有幀間距離計算整體長度。但是在實際的應用中,只需要M長度的空間來存放模板T第n-1幀與模板R中M幀之間的距離,在計算完第n幀與模板R中M幀之間的距離對M長度空間的數據進行替換,從而進行模板T第n+1幀與模板R中M幀之間的距離,從而節省了(N-1)×M的存儲空間,這對車載系統有限存儲空間的系統中有著非常重要的意義。
4、結語
相比于傳統的按鈕式、觸摸屏式人機交互系統,語音識別對于車載多媒體系統有著非常重要的意義,將是車載多媒體系統重要的發展方向,本文針對車載多媒體系統對低CPU運算時間和地存儲空間的特點,對語音識別中的端點檢測、語音特征參數提取以及識別模式的實現和優化進行了研究。
參考文獻
[1]方敏,浦劍濤,李成榮.嵌入式語音識別系統的研究和實現[J].中國信息學報,2004,(6):73~78.
[2]萬春,黃杰圣,曹煦暉.基于DTW的孤立詞語音識別研究和算法改進[J].計算機與現代化,2005,(13):4~6.
篇7
隨著廣播電視管理的不斷完善,對電視節目內容的監管也越來越嚴格,對音頻搜索等技術的需求也在逐漸增加。但是,音頻搜索技術還有很多難題尚未解決,如中文分詞瓶頸、第三方數據存儲量限制、數據處理分析瓶頸和音頻識別準確度等等,這樣在應用時會出現很多問題,相關部門需加大研發力度,讓音頻識別技術更加完善和規范。
1 語音識別關鍵技術介紹
1.1 語音模型自適應技術
因為環境、人的性別和口音等因素的干擾,語音數據會產生較大變化,在特殊條件下的訓練無法推廣應用,而自適應就可以根據測試數據進行調整避免誤判。在變換的自適應中,采用相同的變換更新參數,當自適應模型參數確定后,就可以用少量自適應數據變換方程,利用變換方程來重新估計模型參數[1]。一般來說,變換方程的數目小于目標模型參數,所以使用少量自適應數據就可以估計出變換方程。但是變換方程并不能探測出單個模型的特征,其漸進性較差,無法估計特征相近人模型。
1.2 說話人識別技術
說話人識別也被稱為聲紋識別,通過語音信號來識別說話人的身份。說話人識別主要分為兩類,即開集識別和閉集識別,兩者主要通過是否需要拒識來區別。開集識別更具普遍性,相比閉集識別技術更難。比如說,我們同時監聽多個人說話,開集識別需要在多個說話人中找到指定的說話人。開集說話有兩大缺陷:虛警錯誤和漏報錯誤,兩者之間互相制約互相影響。在應用過程中,可調整識別模塊更傾向于少虛警錯誤或漏報錯誤。研究中會通過等錯誤率去判斷說話人識別系統的性能是否達標,如果虛警錯誤率和漏報錯誤率相等就是等錯誤率[2]。等錯誤率會受到測試語音長短、樣本語音信道匹配度和說話人語音長短等因素的影響,如果說話人語音越長,測試語音也就越長,兩者的差異也就越小,等錯誤率也會相應降低。
1.3 P鍵詞識別技術
關鍵詞識別技術分為單階段系統和兩階段系統兩大類,單階段系統識別主要是在關鍵詞系統中進行識別,當關鍵詞出現變化,系統就要重新識別。兩階段系統是將一般意義的連續語音轉換為文本,然后借助文本匹配途徑找到關鍵詞。這種系統比較靈活,可以隨時變換關鍵詞,是目前使用最多的關鍵詞識別技術。通過語音關鍵詞檢測特定內容具有兩個優勢:首先是準確率更高,其次是關鍵詞會多次出現。這樣在內容監管中就可以允許出現漏檢錯誤,不必每次都準確地識別關鍵詞。
2 語音識別技術的具體應用
2.1 音頻模板匹配技術
在已知節目片頭曲的條件下,可以使用音頻模板匹配技術進行自動打點和分割。因為受到音頻壓縮和信號傳輸的影響,導致模板之間存在差異,就可以通過提取多頻帶能量相對比率,利用各個頻帶能量分布趨勢穩定的特點,就可以解決音頻信號扭曲造成的不穩定問題。
2.2 音頻切分和分類技術
在處理廣播電視音頻信息的時候,例如語音識別和檢測關鍵詞,需要先對廣播電視的音頻進行切分,一般都會采用靜音檢測法來切分,這樣可以準確定位,為音頻分類工作奠定了基礎。對切分的音頻片段進行分類,需要根據音頻類型采取不同的處理方法。非靜音主要分為語音和非語音兩類,而語音又分為純語音和非純語音,非語音分為音樂和環境音。
2.3 自動發現技術
將廣告識別作為案例,利用音頻檢測獲取新廣告:首先是針對未知節目和廣告而設計,因此需要去除已知模板,這樣可以減少計算量。接著是利用音頻向量的快速搜索算法確定重復片段的預留位置,因為音頻向量都是通過音頻段的信息展開檢索,就會出現音頻字分布相同、但排列不同的音頻片段,也會有一些錯誤片段,所以需要篩選過濾一遍。最后是利用音頻指紋搜索找出音頻向量模型的重復片段。因為音頻指紋檢索技術是利用音頻幀的排列信息開展工作,所以準確度更高,可以檢測出誤報片段。完成上述步驟以后,就可以通過圖像幀變化率來區分非廣告的重復部分。因為廣告的播出費用是按照播放時間來定的,所以廣告商需要在有限的時間內向觀眾傳遞更多的信息,所以視頻幀的變化率就比較大,而電視劇的變化率較小,這樣就可以去除重播的非廣告類節目[3]。
3 結語
隨著科學技術的不斷發展,語音識別技術的應用范圍也越來越廣,識別的準確度也在不斷提高。廣播電視對語音監管的要求也在提高,語音識別技術必須達到要求,這樣不僅可以提高節目的搜索速度,對關鍵內容進行快速定位,還可以減輕工作人員的工作壓力,提升監管水平。
參考文獻
篇8
Research Status and Development Trend of Russian Speech Recognition Technology
MA Yan-zhou
(PLA University of Foreign Languages, Luoyang 471003, China)
Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.
Key words: speech recognition; hmm;russian acoustic models; russian language models
俄語(Русскийязык)[1]是俄羅斯和聯合國的官方語言,也是我國少數民族正式語言。在前蘇聯和俄羅斯使用,俄語在蘇聯時期具有很重要的地位,直到現在仍然有些獨聯體國家在廣泛使用,雖然這些國家已經開始強調本地語言的重要性,但在這些國家之間依然使用俄語進行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國俄羅斯族使用俄語進行交流,聚集地分布在新疆地區的阿勒泰、伊犁、塔城及內蒙古呼倫貝爾市的額爾古納、滿洲里等地,
語音識別(Speech Recognition)[2]是指在各種情況下,識別出語音的內容,讓機器聽懂人說的話,根據其信息而執行人的不同意圖。它是一門交叉學科,涉及與計算機、語音語言學、通信、信號處理、數理統計、神經心理學人工智能、和神經生理學等學科。能夠能滿足不同需要的語音識別系統的實現已經成為可能,它的前提是模式識別、信號處理技術、計算機技術和聲學技術等的發展。近年來,軍事、交通等領域,尤其在計算機、人工智能等領域得到廣泛應用。
俄語語音識別是一個有巨大潛力的研究方向,不僅能夠為人們的生產生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經濟等各個領域都有著重要的研究價值和應用前景。本文著重介紹語音識別發展歷程、闡述俄語語音識別關鍵技術、分析俄語語音識別未來的發展趨勢。
1 俄語語音識別的現狀
俄語連續語音識別取得快速發展,利益于技術的進步。隨著語音識別在技術層面的不斷突破與創新,對英語的識別慢慢成熟,然后逐漸擴展到其他語種如漢語、俄語等。
1.1語音識別技術的發展
20世紀50年代,語音識別的研究開始借助機器來實現。1952年,一個特定人獨立數字識別系統[3]由貝爾(Bell)實驗室的Davis、Diddulph和Balashelk首次研制,該系統成功識別10個英語數字。1959年,英格蘭的Fry和Denes利用譜分析技術和模板匹配技術,提高了音素的識別精度,建立了一個能夠識別9個輔音和4個元音的識別系統。20世紀60年代,經過Faut和Stevens的努力,語音生成理論初步形成。動態規劃方法[4]由蘇聯的Vintsyuk提出,并實現了對兩段語音進行對齊。70年代取得一系列重大突破,基本實現孤立詞識別。俄羅斯推進了模板匹配思想在語音識別中的應用;利用動態規劃方法實現語音識別也由日本的科學家實驗成功。20世紀80年代,語音識別研究的一個主要特點是由模板匹配方法向統計建模方法的轉變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀80年代中期HMM模型才廣泛被世界各地的語音識別實驗室熟悉和采納。另一個新方向是利用神經網絡解決語音識別問題,促進了該技術在語音識別領域的應用[7-9]。20世紀80年代后期,在DAPRA的支持下,對大詞匯連續語音識別系統的研制也取得了顯著的成果,研究機構主要有CMU、BBN、林肯實驗室、MIT、AT&T貝爾實驗室。
20世紀90年代以來,語音識別開始實用化研究,并取得了突破性的進展。其中算法的研究取得了非常明顯的效果,并提升了系統的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗概率準則估計(MaximumA-Posteriori Estimation, MAP),以及用于模型參數綁定的決策樹狀態聚類等算法,這些算法的不斷優化,也使得應用于實際的語音識別不斷出現。最具有有代表性的系統有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國國家標準和技術研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動下,各個研究機構不斷嘗試語音識別任務,目的是不斷提高識別的性能。進入21世紀,在向廣度和深度兩方面,自動語音識別得到了更為廣泛的研究。魯棒性語音識別,進行了了細致的調研,特別是在置信度和句子確認方面非常有效,尤其對處理病句。在21世紀的前10年,信息技術領域最重要的十大科技發展技術之一就有語音識別技術的一席之地,人機接口關鍵的語音識別技術,已經成為一個具有競爭性的新興高技術產業,它的實用化研究將成為未來的方向。
1.2俄語語音識別技術的發展
語音技術的研究主要集中在幾個主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區對俄語語音技術的研究活動正在穩步上升。
俄羅斯科學院緊跟世界語音識別技術的發展,結合俄語自身的獨有發音特點進行了卓有成效的研究并取得了一系列的成果。在開發聲學,詞匯和語言模型時采取特別重視俄語的細節,對于聲學模型,采用知識和基于統計的方法來創建幾個不同的音素集10。對于語言模型(LM),從不同網站自動收集新聞文本語料,用統計分析的方法將訓練文本數據和語法相結合,計算不同情況下n-gram中單詞的頻率,優化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識別單元的問題上采用距離最小信息不匹配的原則,建立語素級單元,顯著減少誤差概率[12]。
語料庫是語音識別最基本的支撐,文本語料和口語語料都是一個語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎上進行大詞匯、非特定人連續俄語語音識別的研究[13]。俄羅斯對語料庫的研究起步比較晚,在20世紀一直落后于世界語料庫的發展,缺乏系統的理論研究和先進的實踐成果。但近十年來,隨著俄羅斯國家語料庫建立和不斷完善,俄語語音技術的研究正在慢慢興起并取得了一些矚目的成就。
國內對俄語語音的研究主要集中在教學方面。使用統計的方法,基于HMM對俄語語音進行建模和識別研究,目前還沒有發現相關的文獻記錄。
2 語音識別技術
語音識別系統根據角度、范圍、性能等差別,有以下的分類。
根據詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據發音方式可分為孤立詞(isolated word)識別、連接詞(connected word)識別、連續語音(continuous word)識別等。根據說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據語音識別的方法不同進行了模板匹配、隨機模型和概率語法分析等分類方法。
2.1 語音識別基本原理
通過計算機的輔助功能把輸入的語音信號變換為對應的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識別技術研究的根本目的。語音識別系統核心是一套語音取樣、識別、匹配的模式匹配系統[2],基本原理如圖1所示。
語音識別系統由三個基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識別系統,但它的結構要比普通的模式識別系統要復雜,因為語音所包含的信息是復雜多樣的語言信息,結構也是多變的。首先對輸入的語音信號進行預處理,預處理包括適當放大信號功率并對增益進行有效控制,之后進行反混疊濾波以消除信號的干擾;然后將模擬信號轉化為數字信號即數字化處理,便于存儲和處理;然后進行特征提取,并使用一些參數來表示的語音信號的特性;最后對其進行識別。語音識別又分為兩階段:訓練和識別。在訓練階段,利用特征參數表示語音信號的相應特征,得到標準數據即模板,將模板構建成一個數據庫即模板庫;在識別階段,將語音特征與模板庫中的每一個模板進行比較,找到了最相似的參考模板,這就是識別的結果。
2.2 HMM模型技術
語音識別早期采用的有矢量量化(Vector quantization, VQ)技術、動態時間規整(dynamic time warping, DTW)技術等,從處理難度上看,最簡單的是小詞匯量、特定人、孤立詞的語音識別,最難解決的是大詞匯量、非特定人、連續語音識別。當今語音識別系統采用的主流算法是HMM模型技術。
HMM模型的狀態不能被直接觀察到,但可以通過觀測向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現為各種狀態的,每個觀測向量都是由一個狀態序列產生的,這些狀態序列具有相應的概率密度分布。HMM是一個雙重隨機過程:具有一定狀態數量的隱馬爾可夫鏈和顯示隨機函數集。HMM的基本問題及解決算法6-9
1)評估問題(前向算法)。
現有觀測序列O=O1O2O3…Ot以及模型參數λ=(π,A,B),如何計算觀測序列的概率,進一步可對該HMM做出相關評估。利用forward算法分別以每個HMM產生給定觀測序列O的概率進行計算,然后從其中選出最優秀的HMM模型。
經典應用例子就是語音識別。在HMM的語音識別描述中,每個單詞對應一個HMM,每個觀測序列全部由一個單詞的語音來構成,單詞的識別可以通過評估而選出最可能的HMM,此HMM由產生觀測序列所代表的讀音實現。
2)解碼問題(Viterbi算法)
現有觀測序列O=O1O2O3…Ot以及模型參數λ=(π,A,B),如何尋找最優的隱含狀態序列。此類問題比較關注馬爾科夫模型中的隱含狀態,在這些狀態中雖然不能直接觀測,但價值更大,可以利用Viterbi算法來解決。
實際例子是進行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個隱式的狀態,而這句話可以被視為一個給定的條件,從而找出基于HMM的可能正確的分割方法。
3)訓練問題(Baum-Welch算法即前向后向算法)
此時HMM的模型參數λ=(π,A,B)未知,對這些參數進行調整,使得觀測序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。
2.3 大詞匯量連續語言識別
在語音識別研究中難度和挑戰性最大為課題應該是基于大詞匯量的、非特定人的連續語音識別[13]。在詞匯量大于1000詞的時候,比較容易混淆的詞數量增加,誤識率約為基于小詞匯量的、特定人的孤立詞識別系統的50倍左右。而且還帶來兩個重要的、不易解決的問題:語流的切分和連續語音的發音變化。此時采用統一框架可以有效解決這個問題。大詞匯量連續語音識別總體框架[14]如圖2所示。
俄語語音信號分析后,形成特征向量,并通過字典識別模型,然后,根據語言模型的語法,將輸入的語音與模板匹配,在句子層面進行組合。從俄語聲學模型、俄語語言模型敘述大詞匯量連續語音識別的過程。
2.3.1聲學模型
設計俄語語音識別系統底層相應的HMM子詞單元模型,需要充分考慮俄語聲學和語音學的特征。俄語基本聲學單元的選擇是聲學建模過程中一個基本而重要的問題。在俄語連續語音識別中,可供選擇的基本單元包括詞、音節、元輔音等。識別基本單元的選擇一般基于語音學知識。
俄語字母是語音的書面形式,每個俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個字母如表1所示。
根據俄語詞的發音特征、音節的發音特征和字母的發音特征,選擇音素作為子詞單元,然后就可以進行HMM訓練,首先用一種很粗糙的方法進行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動收斂到一個最佳的模型,并實現了一個合理的子詞分割。這樣就可以初步完成俄語的聲學建模,建設一個俄語語音參考模式庫。
2.3.2 統計語言模型
自然語言處理問題必然要乃至統計語言模型[17],如語音識別、機器翻譯、分詞、詞性標注等等。統計語言模型是計算概率的模型,即。使用語言模型,可以確定一個單詞序列的概率,或給定一個單詞的數目,它可以預測下一個最有可能的單詞。
那么如何計算一個句子的概率呢?給定句子(詞語序列),它的概率可以表示為:
由于上式中的參數過多,因此需要近似的計算方法。下面介紹適用于俄語的n-gram統計語言模型。
n-gram模型即n-1階馬爾科夫模型,首先假設:當前詞的出現概率僅僅與前面n-1個詞相關。因此(1)式可以近似為:
當n值為1、2、3時,n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數就是條件概率。N取值越大,模型越準確但計算越復雜計算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。
2.3.3 連續語音識別系統的性能評測
評定連續語音識別系統的優劣,觀測系統的性能,一般都是針對不同的識別任務,不同的任務單詞庫和任務語句庫,需要不同的評價標準。如果要想粗略地評估某個系統,可以從兩個方面去考慮,一是系統識別任務的難易程度即復雜性;另一個是采用該系統的識別系統的識別方法對該難度的識別任務的識別效果即識別率。在連續語音識別系統中,通過對音素、音節或詞的識別率進行識別性能評價,常用的系統參數是正確率(正確率),錯誤率和識別準確率。
其中的正確數、轉換數、插入數和脫落數,采用主觀的方法來目測,馬可以通過統計的方法來得到。
2.4 HTK工具
語音識別過程涉及的算法復雜,其中最為著名的HTK由劍橋大學研發,主要用來建立基于HMM的大規模連續語音識別系統。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環境下運行。HTK提供了一系列命令函數用于語音識別,包括一系列的運行庫和工具,使用基于ASNIC模塊化設計,可以實現語音錄制、分析、標示、HMM的訓練、測試和結果分析。整個HTK的工作過程包括數據準備、模型訓練和識別過程。
3 語音識別的應用
隨著計算機技術的進步、算法的不斷優化、信息處理技術的智能化,俄語語音識別技術的發展會越來越光明。應用的范圍也會越來越廣,可能會出現一些新的應用。
1)俄語語音信息檢索
網絡技術和多媒體技術的迅速發展,數據量急劇增多,如何在海量數據中挑選出有用的信息,并進行相應的分類和檢索,對合理地利用信息資源具有重要的意義。多媒體檢索技術應運而生。
2)俄語發音自學技術
非母語語言學習成為目前教育領域的一個熱點,而自學是語言學習的一個有效途徑,它具有不受時間和空間限制、靈活方便的特點,一種稱為計算機輔助語言學習的技術誕生了。有幾個普通問題和關鍵技術是必須要考慮和解決的:標準發音語料庫和非標準發音語料庫、學習者發音的分級標準、語音對齊、衡量發音質量的評判標準和發音矯正。
3)基于俄語語音情感處理
人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號中的情感因素[18],也反映了信息的一個方面。情感的分析和識別也是一個非常困難的研究方向。
4)嵌入式俄語語音識別技術
后PC時代智能終端的飛速發展,為人機之間的自然、快捷交互提供了可能。當前嵌入式語音識別的應用領域還比較有限,未來應用可能會更加廣泛。
4 總結
語音識別技術的實用研究是一項極具挑戰性的工作,雖然經歷了近半個世紀的發展,取得了一些突破性的進展。語音識別技術在俄語方面的應用更是如此,不僅要解決語音識別技術本身的問題,還要解決高質量的俄語語音語料庫和文本語料庫的問題,同時還要解決各種算法與俄語適應和匹配等其他問題,如俄語自然語言的識別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發音與環境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發展與科技的不斷進步,相信這些問題會在不久的將來逐一得到解決,展現在人們面前的是更加流暢、更加智能的人機交互界面。
參考文獻
[1] 趙力.語音信號處理 [M].北京:機械工業出版社,2011:191-215.
[2] 韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2013:241-255.
[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.
[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.
[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.
[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.
[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.
[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.
[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.
[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.
[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.
[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.
[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.
[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.
[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.
篇9
1.1 項目背景
目前,固網用戶撥打電話,必須先查出被叫的號碼,并按鍵進行撥叫。而隨著通信業的發展,要記的電話號碼越來越多,而目前大部分的固定電話都沒有號碼存儲的功能,所以很多時候使用固話打電話時,要么從手機上查找被叫的電話,或者是從紙制電話簿去查找,既不方便,又浪費時間。
“語音電話本”完全可以幫助用戶解決以上問題,用戶只需撥打一個號碼接入系統平臺,說出聯系人的姓名,系統就可以自動將話路轉到該人的電話上。整個過程通過自然的語音方式交互,即感到親切自然方便快捷,又節省時間,提高工作效率。
從服務管理的角度來看,隨著信息通信客服業務受理的不斷發展,座席客服話務量越來越多,用戶對服務的質量要求也越來越高,傳統客服系統在傳統語音信息處理上的局限性制約了系統服務和管理能力的提升。
服務方面,由于業務的多樣性和復雜性帶來的海量數據信息不能得到快速、有效的關聯處理而產生的問題,影響了客戶服務體驗。
運營管理方面,雇傭人工座席每天接聽大量的信息查詢電話,座席業務人員的更替帶來的培訓,消耗了部分運維成本,影響了服務質量。
1.2 建設目標
本項目通過研究智能語音技術在國網遼寧公司信息通信客服系統中的應用,將語音識別及客服查號業務相結合,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。目前,語音電話本技術實現主要包含:ASR 、TTS 、IVR 三項技術,其中TTS和IVR技術對于語音電話本業務來說已經非常成熟。
ASR語音識別技術近年來發展十分迅速,其應用也逐步得到推廣,佳都新太也一直開發、調試、應用這項重要的語音技術,自2001年以來佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個項目中使用了ASR 自動語音識別系統,佳都新太通過對ASR測試、改進,自動語音識別率達到95%以上。
語音電話本業務可以說是CTI平臺上的典型應用,佳都新太把ASR語音自動識別技術、TTS語音合成技術與CTI 的IVR技術三者融合為一體,為語音電話本業務的技術實現提供了可靠的保障。
本項目可以達到目標:
1.2.1 對語音信息的自動化處理
通過建立具備智能語音分析能力的語音識別平臺,實現對用戶查號業務的語音實時識別及關聯處理,同時實現對語音文件的統一分析,提供支撐客服業務受理的有效工具。
1.2.2 文件分析處理
通過語音分析引擎對送入的語音進行文字轉寫、維度結合后生成索引文件,這些結構化的索引文件中包含了語音中的所有信息。索引文件存儲到數據倉庫中,通過對有效的海量錄音文件、音頻文件進行分析處理。
1.2.3 實現自助查號功能
通過實現語音中的知識挖掘和語音文件的快速檢索,實現自動語音查號功能。
2 項目技術方案
2.1 項目設計原則
本次項目是對省公司固定電話語音自動查號系統的功能完善,使用先進的語音識別技術來代替繁重的人工勞動,提高省公司內部溝通的效率。
本次項目的關鍵點和技術難點在于語音識別,因此在方案設計過程中我們著重考慮了這個問題,選用了國內領先的智能語音技術來作為語音識別引擎,結合座席客服系統的需求提供定制化專業服務。
2.2 整體架構設計
如圖1,用戶通過撥打查號服務電話,系統為用戶播放自動語音并引導用戶按鍵選擇功能和需要查號的人名,系統根據語音分析出內容,并在數據庫中查詢對應的號碼,系統將查到的號碼以自動語音方式播報給用戶。
系統部署需新增接入網關1臺,用于與電力內部電話程控交換機對接,實現平臺電話呼入呼出。采用電信級語音接入網關Dialogic DMG2030,接入規模1E1(即30路通話),PRI信令,通過電路中繼上聯到遼寧電力內部程控交換機。遼寧電力內部程控交換系統為語音電話本系統分配一個內部接入服務號碼和一個外部接入服務號碼。同時網關接入虛擬資源池虛機網絡。
新增虛擬資源池虛機1臺,用于部署媒體處理軟件、CTI平臺、語音電話本業務應用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數據庫。
新增核心網絡交換機1臺,用于系統組網。
2.3 系統邏輯結構
IVR與TTS、ASR通過語音引擎實現整個語音交互過程的自動識別、自動播放功能。系統采用B/S結構,方便用戶對電話本的修改,也便于各營業網點的開戶、受理以及對用戶的電話本進行維護等。整個系統采用模塊化結構,具有很高的可靠性和可擴充性。
邏輯結構見圖2。
2.4 系統建設方案
新建“語音電話本”業務平臺,其網絡拓撲結構如圖3所示。
設備組成說明:
系統平臺需要以下設備:
(1)IPS數字排隊機;
(2)信令網關節點;
(3)數據庫服務器: 實現用戶數據的存儲和系統認證等功能;
(4)TTS服務器: 通過IPS平臺的MS模塊來實現資源調用;
(5)ASR服務器:通過IPS平臺的MS模塊來實現資源調用;
(6)WEB服務器:實現用戶通過互聯網對電話簿的維護管理功能;
(7)業務處理服務器:用于處理個人語音電話本業務流程;
(8)管理維護節點;
(9)路由器和防火墻等網絡設備;
2.5 配置計算依據
2.5.1 中繼和語音的配置比例
語音電話本業務,用戶報出要找的人的姓名后,ASR進行識別,系統根據ASR識別出的名字,找出對應的電話號碼并進行外呼,被叫接通后,主被叫進行通話的過程中,語音資源即可釋放。整個業務實現和呼叫卡類業務的資源配置非常相似,根據200業務的實際運行經驗數據,建議中繼和語音的比例為4:1。
2.5.2 中繼和ASR的配置比例
在一個呼叫的過程中,用戶說出要找人的姓名,ASR資源進行識別,在識別完成系統呼通被叫后,ASR資源釋放,主被叫雙方進行通話,按平均呼叫時長為150秒,其中ASR識別的時間大概為30秒,而在一次通話中占用一入一出兩個通道,按上面的估算數據,中繼和ASR的配比大約為 2×150/30=10:1。
2.5.3 中繼容量和所能支持的用戶數的比例
假設一些呼叫參數如下:
系統中繼容量A
用戶數 B
每用戶每天使用次數C:8次
每次呼叫時長D:150秒
忙時集中系統E:10%
忙時中繼Erl數F:0.8
根據公式:A=B*C*D*E/F/3600
則 A:B=8×150×10%/0.8/3600=1:24
因為語音電話本業務每次呼叫要占用一入一出兩個端口,所以中繼容量和所支持的用戶數的比例約為1:10。
2.5.4 數據庫處理能力計算
忙時TPMC=(忙時呼叫次數×(平均每次呼叫數據庫訪問次數+其他應用模塊平均每次呼叫事務訪問處理次數))/60
按4.3.3假設的數據,當使用語音電話本的用戶數為10,000用戶時,系統的忙時呼叫次數為 10000×8×10%=8000次/小時
按每次呼叫對數據庫的訪問操作次數為10次來計算,則10,000用戶時,對數據庫的TPMC值的要求為:
TPMC=8000×10/60=1333
2.6 業務系統功能
2.6.1 業務流程(如圖4)
2.6.2 聲控撥號
用戶使用綁定電話撥打接入號碼“***”進入系統后,系統直接會提示用戶報出用戶想找的人的姓名,并進行呼叫。
(1)“聯系人名字” 選中默認呼叫號碼:
(2)用戶撥打“語音電話本”服務號碼;
(3)說出對方姓名,如:張三;
(4)系統識別語音,查詢對應的默認電話號碼;
(5)系統通過語音播報查詢到的電話號碼。
(6)“聯系人名字+電話類型” 精確查詢:
(7)用戶撥打“語音電話本”服務號碼;
(8)說出對方姓名+電話類型,如:張三 手機;
(9)系統識別語音,查詢對應的電話類型的號碼;
系統通過語音播報查詢到的電話號碼。用戶通過綁定電話使用語音電話本業務流程如圖5所示。
用戶使用非綁定電話使用語音電話本業務時,必須先通過輸入帳號和密碼,經過系統鑒權后才能使用。
2.6.3 原始通訊錄的錄入
語音電話業務開展的一個關鍵問題,就是用戶申請該業務后首批通訊錄的錄入問題,首批通訊錄相對來說量比較大,錄入的方式建議采用營業廳前臺填表錄入、通過WEB錄入的方式,也可以采用電話、傳真、信函的方式進行錄入。在首批通訊錄錄入后,用戶在使用過程中做一些號碼本的修改和維護,維護量都比較小,可以通過WEB方式、電話、短消息、傳真等多種方式進行修改。
批量導入電話本:
通過Excel文件導入企業通訊錄,可以參考如表1格式。
可以根據實際需求增加其他列。
2.6.4 電話本維護(Web)
系統提供后臺管理界面,管理員登錄后臺對電話本進行管理,如圖6。
個人電話本資料可通過Web、人工坐席、電話、傳真、短消息等多種方式進行電話本資料的維護管理,包括修改用戶密碼等。
業務流程如圖7所示。
“增加、刪除、修改”用戶記錄:
系統提供對單個記錄的“增加”、“刪除”、“修改”功能,方便對電話本進行靈活管理。
2.6.5 多個號碼優先呼功能
當用戶錄入的某個聯系人有多個通訊號碼時,如有手機、小靈通、固定電話,可以把這些號碼都錄入在系統中,在呼叫時,用戶可以自行設置優先呼叫的號碼,在號碼不通時再按設置的優先策略逐一呼叫被叫其他的聯系方式。
2.6.6 信息查詢(Web)
系統提供電話本查詢界面給座席和管理員使用。
座席和管理員可根據聯系人姓名,查詢聯系人對應的所有電話信息。
該功能主要在座席提供人工服務時使用。
3 技術創新點
本次項目采用國內領先的智能語音識別技術(ASR)結合客服后臺定制化查詢需求,在滿足用戶傳統的查詢基礎上,語音定制化為用戶報出相關信息,由用戶按鍵選擇即可,大大方便了用戶的操作和客服的工作時間。
4 總體性能指標
通過研究智能語音技術在信息通信客服系統中的應用,實現客服查號業務的自能化,實現語音的自動識別及數據分析,減少人工運維成本,提高客服服務質量及服務效率。
5 技術展望
篇10
隨著科技的發展,語音交互逐步走了進人們的生活中。例如蘋果手機中Siri和Win10系統中小娜都已被人們所熟悉,小米語音識別遙控器也給智能家居帶來新體驗。考慮到智能語音識別技術在未來科技和生活中的普及是必然,我國在上世紀末期已開展對其的研究。因此,將非特定性語音識別技術運用到智能家居中,并以語音控制方式進行控制家具電器設備,為人們的生活帶來了很大的便捷[1]。
1 語音識別系統簡介
語音識別技術其任務是將人類的聲音轉換成計算機可識別的信息。語音識別技術過程為:語音信號采集、預處理、特征信號提取、根據庫模板測度估計、語音識別、語音輸出[1]。
語音識別技術有兩方面的應用[2]:一是連續語音大詞匯語音識別系統,應用于聽寫機及語言信息查詢服務系統;二是體積小、方便攜帶的語音設備,如智能手機、玩具、家電遙控器等。
語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高級技術[3]。語音識別技術過程為:語音信號采集、預處理、特征信號提取、根據庫模板測度估計、語音識別、語音輸出。
2 系統主要硬件組成
2.1 語音識別系統的硬件總體設計
本系統包括語音信號采集模塊、語音信號調理模塊、單片機控制模塊、語音識別模塊、液晶顯示模塊、控制執行模塊等[1]。
語音信號調理模塊包括自動調整增益電路和帶通濾波電路。語音信號強度會隨傳播距離的增加成指數下降,為了防止近距離出現飽和限幅現象,因此采用自動調整增益電路[1]。人類的語音信號主要分布在300Hz-3.4KHz,帶通濾波電路可以有效地防止造成干擾,提高識別效率[1]。
2.2 單片機控制模塊電路設計
市面上可用于語音識別的單片機多種多樣,文章所用的是HR7P194單片機。HR7P194單片機具有單時鐘周期短、運行速度快、性能穩定的特性,采用哈弗型RISC,66條精簡指令集,工作頻率最高16MHz,支持硬件除法器,支持17個中斷處理,具有8KB Flash程序儲存器、496字節的SRAM、1路8位定時器T8N、3路8位PWM時基定時器T8P1/T8P2/T8P3、1路16位門控定時器T16G、10位模擬數字轉換器ADC、液晶顯示控制器LCDC、41根I/O口線以及1個全雙工異步串行口和1路IIC總線主控器IICM等。
HR7P194單片機控制模塊最小工作系統電路如圖1所示。
2.3 語音識別模塊
以LD3320為核心的語音識別技術有語音識別和聲音控制方面的優勢,其優點是在不需要存儲器及模數轉換器的情況下,由HR7P194進行獨立控制;此外LD3320是一款自定義關鍵詞進行識別的芯片,用戶語音操作便捷。
2.4 液晶顯示系統
相較于其他顯示方式液晶顯示具有顯示便捷、功耗小、使用壽命長的優勢[4],基于液晶顯示的優點文章采用LCD128*64液晶顯示屏。LCD128*64這種通用模塊其優點主要在能夠顯示文字、數字、字母及圖形。利用該模塊主要顯示語音識別出的命令、處理器發出的控制指令及系統狀態,同時利用其可以顯示圖形的特點,可以模擬顯示人的聲音動態波形,科技感更強。
3 系統軟件設計
主程序開始先對包括單片機在內的所有元件進行初始化[4],包括單片機控制模塊初始化、語音識別模塊初始化、液晶顯示模塊初始化、控制執行模塊初始化。初始化之后進行語音識別,通過對LD3320讀寫芯片的控制,獲取語音命令,根據識別情況判斷是否調用相應的子程序并進行數據處理,最后控制繼電器和液晶顯示。
4 系統測試
系統硬件實驗平臺設計、組裝調試好后,通過東軟載波單片機開發工具HR10M將程序下載到HR7P194單片機中。然后分別在一個沒有噪音室內環境中和具有一定噪音的室外環境中進行語音訓練。通過訓練后分別在兩種環境中進行測試:通過5人分別說出“開燈”“關燈”等命令來進行驗證。實驗結果為:語音識別系統對5種不同的聲音均可良好的識別并做出相應的動作,在外界環境良好的狀況下(無噪音的情況下),識別效率在92%以上;在具有一定噪音的室外環境中,識別效率有所降低,在85%以上。
經過長期、多次測試結果表明:本系統能夠識別語音信息,識別效率高、性能穩定,適合智能家居環境的語音交互系統。
5 結束語
文章所構建基于HR7P194單片機和LD3320芯片的智能家居語音識別系統,能夠有效地識別人的聲音,實現語音控制電燈開關、風扇轉速、電視及熱水器等家用電器,同時東軟載波單片機具有非常良好的穩定性,在后期產品穩定性測試中發揮重要作用。
參考文獻
[1]陳濤,高必梵,艾菊梅.語音識別技術在智能家居控制系統中的應用研究[J].電子質量,2015(3):1-3.
篇11
語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發的Audry系統是第一個可以識別10個英文數字的語音識別系統。隱馬爾可夫模型是20世紀70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。目前大多數連續語音的非特定人語音識別系統都是基于HMM模型的。[1]
一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。語音識別一個根本的問題是合理的選用特征。特征參數提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。非特定人語音識別系統一般側重提取反映語義的特征參數,盡量去除說話人的個人信息;而特定人語音識別系統則希望在提取反映語義的特征參數的同時,盡量也包含說話人的個人信息。
而隨著時頻技術的研究發展,使人們在進行信號處理時,可以將語音信號分解在一組完備的正交基上。從而,語音信號的能量在分解以后將分散分布在不同的基上。但是,語音信號是一種典型的非平穩信號,其性質隨時間快速變化,在兩個不同的時間瞬間,在同一個頻率鄰域內,信號可以有完全不同的能量分布。因此,有必要找到一種精確表示語音信號時頻結構,便于特征提取的方法。[2]
立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數,構造出局部余弦基,分離不同時間區間,很適合于逼近語音信號。本文使用這種具有活動窗口特性的局部余弦基表示語音信號。為了減少計算量,并進一步提高局部余弦基原子時頻分布的分辨率,采用匹配追蹤(MP)算法分解信號,并結合時頻分析技術得到最優局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號精確的時頻結構[3],進行特征提取。此外,結合語音信號的美爾頻率倒譜系數(MFCC)一起作為該信號的特征向量,通過隱馬爾科夫(HMM)模型進行識別。實驗證明。這種多參數語音識別算法提高了識別的準確度和速度。
2.局部余弦基建模
通過光滑地劃分時間序列為任意長度的子區間(如圖1),可使每一個時間段分別由重疊正交基表示,而整個時間序列的基函數又構成時頻平面的正交鋪疊,因此局部余弦變換對在不同時間段有不同的波形的語音信號有很強的針對性。
圖1 重疊窗口劃分時間軸
Figure1 lapped window divides time axis
圖1中為重疊窗口函數[3]:
(1)
式中為單調遞增的輪廓函數,定義為[3]:
(2)
局部余弦函數族構成了實數軸上平方可積函數空間的規范正交基:
(3)
式中為窗口支集伸縮參數;為第P段時間起點;n()表示正交基序列號。
語音信號可表示為:
(4)
是余弦基原子,。其中是窗口支集邊界參數,為窗口支集伸縮參數,是輪廓函數的尺度參數,這保證了窗口支集只與相鄰的具有適當對稱性的窗口重合,達到局部余弦基精確覆蓋整個時頻平面的目的。
3.匹配追蹤法選取最佳基
由Mallat和Zhang引入的匹配追蹤算法運用貪婪技巧減少了計算的復雜性。它從局部余弦基構成的冗余字典中一個一個挑選向量,每一步都使信號的逼近更為優化。
MP算法將信號分解成一簇時頻原子的線性表達,這些原子選自高冗余度的函數字典中,且最好地符合內在結構。假設函數集是Hilbert空間中一個完備字典,滿足,最優的M階近似為:
(5)
設由M個時頻函數近似的信號與的誤差最小,表達式如下:
(6)
其中代表所選函數的索引。
首先按照某個選擇函數(與的內積最大)逐個挑選出時頻函數,分解為:,設初始輸入信號為初始殘差信號,表示f(t)在方向上近似后的冗余部分。
假設已有表示經過前M-1次迭代后,中未表達部分:選定為最匹配的時頻函數,按如下公式分解為:
(7)
由于每步中與正交,如果字典是完備的,則迭代收斂于f,滿足:
(8)
這樣,可估算出(4)式中局部余弦基原子的參數。
文獻[4]中提出,選出最匹配信號的基,對每一個基求出其WVD分布,信號的WVD分布就表示其最優基的WVD的線性組合,這樣就消除了交叉項的影響。由此得到的WVD分布:
(9)
是局部余弦基字典中被選中的最優基的WVD分布。將等式左邊第二項交叉項組合去除,這樣在時頻面上就得到了干凈的時頻表示:
(10)
在語音信號稀疏分解過程中,每步分解都要從過完備原子庫中選出與待分解語音信號或語音信號分解殘余最為匹配的原子,原子是由參數公式(4)決定的。因此語音信號稀疏分解所得原子的參數可作為語音信號的特征。此外,根據公式(10),使用匹配追蹤法選取的最佳基的WVD分布,含有該語音信號重要且獨特的信息,也可作為該語音信號的特征。
4.基于HMM的語音識別算法
特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現相鄰兩幀數據之間的相關性,通常幀移為幀長1/2。本文為了方便做MP,采用的幀長為512點(32ms),幀移為256點(16ms)。特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。通常的語音識別系統使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數語音識別算法,在此基礎上增加了原子參數公式(4)和最佳基的WVD分布公式(10),這兩維特征,構成26維特征矢量。對MFCC和語音信號能量的WVD分布分別使用了倒譜均值減CMS(Ceps-trum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩健性[5]。
在HMM模型中,首先定義了一系列有限的狀態S1,…,SN,系統在每一個離散時刻n只能處在這些狀態當中的某一個Xn。在時間起點n=0時刻,系統依初始概率矢量π處在某一個狀態中,即:
(11)
以后的每一個時刻n,系統所處的狀態Xn僅與前一時刻系統的狀態有關,并且依轉移概率矩陣A跳轉,即:
(12)
且滿足:
(13)
系統在任何時刻n所處的狀態Xn隱藏在系統內部,并不為外界所見,外界只能得到系統在該狀態下提供的一個Rq空間隨機觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態:
(14)
因為該系統的狀態不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡稱HMM。在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數一般使用混合高斯分布擬合。
(15)
其中,M為使用的混合高斯分布的階數;Cm為各階高斯分布的加權系數。此時的HMM模型為連續HMM模型(Continuous density HMM),簡稱CHMM模型[6]。在本識別系統中,采用孤立詞模型,每個詞條7個狀態,同時包括首尾各一個靜音狀態;每個狀態使用3階混合高斯分布擬合。
5.仿真實驗
5.1 提取最佳基的WVD分布特征矢量
構建局部余弦基字典,使用MP算法選取語音信號“A”的最佳基。如圖2所示。得到的時頻圖既保留了余弦基原子高時頻聚集性的優點,又削弱了WVD作為二次型時頻表示所固有的交叉項的影響,得到了干凈的時頻面。其結果更精確的反映出語音信號在頻率、音強方面的特征,具有良好的時頻聚集性。
圖2 “A“信號的WVD分布
Figure2 WVD of“A”
5.2 孤立詞識別
在語音識別實驗中,采用信號長度為1024的200個實際語音信號樣本,其中100個用于訓練,100個用于測試。該實驗用以識別出語音信號”A”。實驗利用WaveCN2.0錄音系統進行樣本采集,采樣率為8kHz。得到語音信號的有效部分后,提取樣本信號的MFCC參數作為語音信號的特征參數之一。Mel濾波器的階數為24,fft變換的長度為256,采樣頻率為8kHz。MFCC的相關波形見圖3。
圖3 “A“信號的MFCC波形
Figure3 MFCC Waveform of“A”
然后利用MP算法將樣本信號分解為300個原子,將所得原子的參數和最佳基的WVD分布,作為該語音信號的特征參數之二。見圖2。通過HMM進行識別。
在實驗中,設語音”A”類值為1,其他的語音類值為-1。HMM模型的狀態數為7,高斯混合數為3。由第4節HMM訓練的定義可知,重估過程中的輸出概率是隨著重估次數的遞增而增加的,圖4列出了“A”模型訓練期間重估次數與總和輸出概率的log值之間的關系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數成正比趨勢。
圖4 重估次數與總和輸出概率
Figure4 Iterations of EM and output like lihood
對語音進行上述HMM訓練之后,將其模型參數存貯,獲得了識別的HMM模型庫。在識別階段,對100個測試用數據進行語音識別,以檢驗本文系統的識別效果。如表1所示識別精度為89%,平均識別時間約為1.313秒,實驗結果表明,系統識別率和運算速度都比較理想。
表1 識別結果
語音類型 識別次數 識別結果 識別精度
A 其它
A 100 92 8 92%
增加了局部余弦基原子的參數和最佳基的WVD分布作為特征參數,較單純的使用MFCC作為特征參數進行HMM模型訓練,識別率有一定提高,見表2。
表2 結果比較
特征參數 識別率%
MFCC、和特征參數 92
MFCC 89.5
6.結語
本文在傳統基于HMM模型的語音識別基礎上,通過匹配追蹤算法,提取出最佳基的原子參數和WVD分布。二者與MFCC一起,作為本文提出的多參數語音識別算法的特征向量。然后選擇了大量孤立詞樣本進行仿真實驗,針對非特定人孤立詞進行語音識別。結果表明,基于HMM和匹配追蹤的多參數語音識別算法,可提高語音識別的速度和準確度,有一定的實用性。但是,由于算法的復雜性增加,運算量相應增大,簡化算法運算量仍是需要深入研究的課題。
參考文獻
[1]何方偉,青木由直.DP動態匹配算法實現語音的實時識別[J].數據采集與處理,vol.4,no.1,Mar,1989.
[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.
[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.
篇12
1997年,美國麻省理工大學的Picard教授首先提出了情感識別的概念,隨后美國麻省理工大學、美國洛杉磯南加州大學、新加坡南陽理工大學等高校科研機構陸續并展了情感識別領域的研究。在國內,東南大學、中科院自動化研究所、清華大學、東南大學、西北工業大學、江蘇大學等高校和科研機構也都開展了情感識別方面的研究。
二、語音情感識別模塊構成
語音情感識別技術是根據人在不同情感下的語音信號非平穩性特征等比較明顯的特點,通過提取語音的音質特征、韻律特征和頻譜特征等聲學特征來判斷情緒的變化,語音情感識別模塊大體包括語音采樣、語音預處理、語音特征提取、語音特征處理、特征識別、情緒判斷幾個部分。
首先可設定采樣的頻率和時間長短,對語音進行采樣并進行去噪、加窗、分幀等預處理,然后根據對不同情緒判斷的需要分別提取語音的音質特征、韻律特征和頻譜特征等聲學特征如基音頻率、共振峰、Mel頻率倒譜系數、能量、樣本熵等,再將提取的多種特征通過各種時頻分析方法進行處理,如短時傅里葉變換(FFT)、希爾伯特變換(Hilbert transform)、經驗模態分解(EMD)等,之后將特征參數送入相應的函數識別器(常用的一般為支持向量機SVM)識別特征參數的歸屬范圍,最后根據多種語音特征融合后的識別結果來綜合判斷采樣語音的情感種類。
三、語音情感識別技術應用的必要性
隨著社會進步和生活水平的改善,客戶對呼叫中心熱線服務質量的要求也在不斷提高,而呼叫中心主要通過電話與客戶交流,依賴語音獲取信息,與客戶的接觸渠道比較單一,這就需要我們結合國內外發展的新形勢來積極尋求提升服務質量及客戶感知的新方法以應對如下問題。
1 海量錄音抽樣質檢的限制性
客服質檢人員每天從幾萬條錄音中只抽取幾百或幾十條錄音進行質檢,錄音抽取范圍一般是客戶做出滿意度參評或客服代表的專席轉接的錄音,無形中限制了錄音質檢的范圍,而實際的問題是錄音可能客戶既沒有參評、客服代表也未進行專席轉接,故此很難發現錄音背后隱藏的客戶實際問題,錄音質檢的目的也會因此而大打折扣。
2 投訴處理缺少統一的標準
面對客戶各種不同情況的投訴錄音,不同的投訴處理人員會有不同的判斷標準,繼而會執行不同的處理流程,帶給客戶與客服代表的感知也會因此而有所差異,對客戶投訴的判責依賴于個人感知的成分較多,缺少說服力和理論依據。
3 客戶情緒感知的滯后性
若客戶帶著情緒或疑問撥入熱線卻在音調上故作平靜,客服代表將很難在第一時間了解客戶的切實想法和真實情感,無法對癥下藥、做出準確的應答,進而會放大客戶的痛苦,激化客戶的不滿情緒,嚴重影響客戶的感知。
4 客服代表的服務熱情降低
客服代表常年工作在一線,每天面對大量不同客戶近乎相同的問題,重復給出近乎相似的答案,容易產生一定的職業疲勞,在與客戶的互動中會出現語音語調平淡的問題,自己本身卻察覺不到,無形中影響了客戶的感知和呼叫中心的服務質量。
四、語音情感識別的具體應用
結合目前國內外語音情感研究新興領域的語音情感識別技術,可構建語音情感分析模塊,針對以上提到的幾點問題,實現在客服代表與客戶人機交互的過程中的四項重要作用。
1 自動將語音篩選分類
語音情感識別模塊可以將海量的錄音根據客戶情感的不同區分成不同的客戶情感錄音庫,質檢人員可以根據質檢的需要和目的將分類后的情感錄音庫做為抽檢錄音的來源,再輔以日常常用的抽檢標準進行質檢,這樣就精簡了錄音的抽檢范圍,提高了錄音質檢的針對性,增強了質檢工作的目的性,更易于發現實際存在的問題。
2 投訴校準
語音情感識別模塊可以通過采樣客戶的投訴錄音,綜合判斷客戶和客服代表情緒的歸屬類別,為投訴的判責提供標準和理論依據,進而規范和統一后續的處理流程,這樣,即使不同的投訴處理人員也會給客戶和客服代表做出相同的處理結果,使投訴處理工作更具有說服力。
3 客戶情緒及時識別
語音情感識別模塊可以通過實時采樣客戶的聲音,在客戶電話接入的前幾秒對客戶的情緒做出判斷,特別是針對客戶帶著情緒或疑問撥入熱線卻在音調上故作平靜、人耳難以識別的情況下,進而通過情感識別系統的反饋信息及時提醒客服代表客戶情緒的異常,客服代表可以靈活轉變問題處理的方式從而縮小客戶的痛苦,提高客戶的滿意度。
篇13
隨著高科技手段的發展與應用,依靠人的身體特征來進行身份驗證的生物識別技術很好地解決了這一問題。在人臉識別技術方面,計算機所探索的任務就是通過計算機來識別相機攝取的二維圖像,通過二維圖像來識別二維物體信息。這些信息不僅包括二維環境中物體的幾何信息,還包括物體的形狀、位置、姿態、運動等信息,都可以通過計算機來對它們進行識別與理解。計算機利用各種成像系統代替視覺器官作為信息的輸入手段,由計算機來代替大腦完成處理和解釋。計算機技術、數字圖像處理、計算機圖形學、人工智能等學科的發展,為利用計算機實現模擬人類的視覺成為可能。人臉識別技術作為生物識別技術的一種,以其特有的穩定性、唯一性和方便性等特征,被越來越廣泛地被應用在需要身份識別的領域。
1 計算機在生物識別技術和人臉識別技術方面的應用
1.1 生物識別技術
生物識別技術是利用人體的生物特征來進行身份驗證的一種識別技術。由于人的生物特征具有人體所固有的不可復制的唯一性,因此這一生物特征密鑰是無法復制、失竊或遺忘的。采用人體的生物特征作為密鑰,用戶不但可以不必攜帶大串的鑰匙,也不用費心去記或更換密碼,系統管理員更不必因忘記密碼而束手無策。目前,常用的生物識別技術有以下幾種:(1)人臉識別技術。人臉識別技術是人們最早使用的生物識別技術之一。該技術通過提取人臉圖像的某些特征并對這些特征進行分析比較,從而達到識別身份的目的。(2)虹膜識別技術。虹膜識別技術利用世界上任何兩個人的虹膜都是不一樣的特征來進行身份鑒別。識別系統利用一臺標準攝影機對用戶的眼睛進行掃描,然后將掃描圖像轉化成數字信息與數據庫中的資料核對,以驗證身份。(3)語音識別技術。語音識別是對說話者聲音和語言學的綜合運用,是一種行為鑒定。它并不對詞語本身進行辨識,而是通過分析語音的特征,例如發音的頻率等,來識別說話的人。(4)簽名識別技術。簽名識別是這樣一個過程:測量圖像本身以及整個簽名的動作在每個字母以及字母之間不同的速度、順序和壓力。(5)指紋識別技術。指紋識別系統就充分利用了指紋的唯一性、穩定性和再生性等特點,通過比較輸入指紋和預先保存的模板指紋特征,進行身份驗證。由于上述身份識別技術中的缺陷,如虹膜識別技術中的虹膜識別系統的價格還比較昂貴,語音識別技術與簽名識別技術會隨著人的生理特征以及環境的變化而改變等,計算機人臉識別技術得以更廣泛的開發與應用。
1.2 計算機人臉識別技術
計算機人臉識別技術是利用計算機分析人臉圖像,進而從中提取出有效的識別信息,用來“辨認”身份的一門技術。計算機的人臉識別所利用的是視覺數據。生理學的研究表明,人眼視網膜上存在著低層次和高層次的細胞。其中,低層次的細胞對空間的響應和小波變換的結果相似;而高層次的細胞則依據一群低層次細胞的響應,而作出具體的線、面乃至物體模式的響應。以此為依據,在計算機人臉識別中,可以將那些通過對圖象數據簡單處理后獲得的特征定義為低層次特征,而將線、面、模式等描述特征定義為高層次特征。因此,圖象KL變換后的系數特征、小波變換特征及一些統計特征均屬低層次特征的范疇,而人臉部件形狀分析的結果則為高層次特征。
2 關于人臉識別系統的組成
一個典型的人臉識別系統可以由如下的功能模塊構成:(1)圖像的獲取。該模塊從外界獲取圖像,作為人臉識別系統的輸入。該模塊可以是一個攝像頭或者是掃描儀等設備。(2)人臉的檢測與定位。處理分析從圖像獲取模塊輸入的圖像,判斷其中是否存在人臉,如果存在人臉則找到人臉在圖像的位置,并且將人臉從背景圖像中分離出來。該模塊在整個人臉識別系統中具有非常重要的作用。(3)圖像預處理。預處理的主要作用在于盡可能的去除或減小光照、成像系統、外部環境等等對于待處理圖像的干擾,為后續處理提供高質量的圖像。這部分對檢測到的人臉圖像進行幾何的歸一化、消除噪聲、和灰度歸一化、水平與垂直位置的校正等處理。為后面的特征提取創造條件。(4)特征的提取和選擇。該模塊完成從經過預處理模塊處理的圖像提取可以用來識別的特征,將原始圖像中的數據映射到特征空間。(5)訓練,也可稱為分類器設計。此過程結束后將生成可用于識別的參數,也就是可用于分類識別的分類器。事實上,模式識別問題可以看成是一個分類問題,即把待識別的對象歸到某一類中。在人像識別問題中就是把輸入的不同的人像歸入某個人這一類。這部分的基本做法是在樣本訓練集基礎上確定某個判決規則,使按這種判決規則對被識別對象進行分類所造成的錯誤識別率最小或引起的損失最小。(6)識別。根據訓練所得的參數完成人臉的判別工作,給出最后的識別結果,并做出相應的判斷。
3 人臉識別技術在商業銀行方面的應用
從應用角度看,人臉確認可應用于自動門禁系統、身份證件的鑒別、銀行ATM取款機以及家庭安全等領域。具體來看主要有:(1)公共安全:公安刑偵追逃、罪犯識別、邊防安全檢查。(2)信息安全:計算機和網絡的登錄、文件的加密和解密。(3)政府職能:電子政務、戶籍管理、社會福利和保險。(4)商業企業:電子商務、電子貨幣和支付、考勤。(5)場所進出:軍事機要部門、金融機構的門禁控制和進出管理等。
3.1 商業銀行存在的網絡安全問題
隨著現代計算機技術在金融領域的應用,為了實施金卡工程,我國建立了中國銀聯信息處理中心系統(China UnionPay System,縮寫為CUPS)。中國銀聯信息處理中心系統,是我國為配合金卡工程的實施而建立的,是一個跨系統、跨地區、跨國界的龐大金融網絡系統。總體設計目標是要建立起一個現代化的、實用的、比較完整的電子貨幣系統。CUPS是1993年提出任務而組織實施的、以電子貨幣應用為重點啟動的各類卡基應用系統工程,當時的技術規范是采用的CUPS V1. 0標準規范。入網機構必須遵照CUPS V2. 0規范對網絡通信接口方面的要求,建設與銀聯新系統網絡的接口,保障各入網機構和銀聯新系統網絡之間互聯互通,并提供銀聯銀行卡信息安全、穩定、可靠的存取控制。由于網絡方面的高風險性,網絡安全問題日益引起人們的重視。
3.2 利用人臉識別技術防范網絡風險
對于我國廣泛使用的磁條銀行卡,雖然技術成熟,規范,但制作技術并不復雜,銀行磁條卡磁道標準已經是公開的秘密,僅憑一臺電腦和一臺磁條讀寫器就可以順利“克隆”銀行卡。另外制卡機銷售管理不夠嚴格。不法分子利用銀行卡詐騙案件時有發生,主要手段就是通過各種方式“克隆”或者盜用銀行卡。目前,各家商業銀行也采取了一些技術手段防止偽造和克隆卡,如采用CVV (Check Value Verify)技術,在生成卡磁條信息的同時產生一組校驗值,該校驗值與每個卡片本身的特性相關聯,從而達到復制無效的功能。雖然采取了多種措施,但磁條卡本身固有的缺陷己嚴重威脅到客戶的利益。針對上述銀行網絡安全問題,我們可以利用人臉識別技術防范網絡風險。人臉識別技術就是通過圖像采集設備捕捉人的臉部區域,然后把捕捉到的人臉和數據庫中的人臉進行匹配,從而完成身份識別的任務。利用人臉識別技術準確認定持卡人的真實身份,確保持卡人的資金安全。另外,還可以通過人臉識別技術進一步鎖定不法分子,有利于公安機關快速破案。
3.3 人臉識別技術在治理假鈔方面的應用
目前,我國商業銀行在自助設備方面存在的主要問題:一是部分自助設備安裝沒有達到要求。商業銀行的部分自助設備安裝沒有按照公安部門的要求對設備進行與地面加固連接;有的電氣環境沒有達到要求:有的沒有設置110連動報警或者沒有可視監控報警,有的監控錄象不夠清晰,監控錄象保存時間沒有達到規定要求等,另外設備人為破壞現象嚴重等。二是自助設備端軟件設計缺陷。特別是某些國產設備軟件設計不夠合理,軟件變更隨意性大,存在漏洞,造成錯帳可能性比較大。三是銀行的ATM機中沒有假鈔鑒別設備。由于我國商業銀行在自助設備方面存在的問題,目前,假鈔層出不窮。由于銀行的ATM機中沒有假鈔鑒別設備,只是清機人員放入現金前做了鑒別,這樣措施并不夠完善,且容易造成銀行與持卡人之間的糾紛。即使是現金存款機(CRS)有假鈔鑒別功能,但往往因為假鈔識別特征提取的滯后,而被不法分子所利用。不法分子先存入假鈔,然后馬上在柜臺或其他自助設備上提取真鈔,以此手段謀取不法利益。
針對上述問題我們利用人臉識別技術鎖定不法分子。人臉識別具有自然性和不被察覺性的雙重優點。自然性是指該識別方式同人類(甚至其他生物)進行個體識別時所利用的生物特征相同。具體而言,人臉識別是通過觀察比較人臉來區分和確認身份的。與語音識別、虹膜識別等相比較,指紋識別、虹膜識別則不具有自然性。指紋識別或者虹膜識別,需要利用電子壓力傳感器采集指紋,或者利用紅外線采集虹膜圖像,這些特殊的采集方式很容易被人察覺,從而更有可能被偽裝或欺騙。不被察覺的特點對于一種識別方法也很重要,這會使該識別方法不令人反感,并且因為不容易引起人的注意而不容易被欺騙。人臉識別便具有這方面的特點,它完全利用可見光獲取人臉圖像信息。由此可見,利用人臉識別技術能更準確、更快的鎖定不法分子。隨著人臉識別技術的不斷創新,人臉識別技術的應用領域將會更加廣泛。
參考文獻:
[1]王偉,張佑生,方芳.人臉檢測與識別技術綜述[J].合肥工業大學學報(自然科學版)第二十九卷第二期,2006,6.
[2]奕勇.銀聯網絡中的安全技術研究及實現,2007.