原理
所謂聲紋(Voiceprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。人類語言的産生是人體語言中樞與發音器官之間一個複雜的生理物理過程,人在講話時使用的發聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形态方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。每個人的語音聲學特征既有相對穩定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模拟、僞裝,也與環境幹擾有關。盡管如此,由于每個人的發音器官都不盡相同,因此在一般情況下,人們仍能區别不同的人的聲音或判斷是否是同一人的聲音。
應用
聲紋識别的應用有一些缺點,比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風和信道對識别性能有影響;比如環境噪音對識别有幹擾;又比如混合說話人的情形下人的聲紋特征不易提取;……等等。盡管如此,與其他生物特征相比,聲紋識别的應用有一些特殊的優勢:(1)蘊含聲紋特征的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識别成本低廉,使用簡單,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備;(3)适合遠程身份确認,隻需要一個麥克風或電話、手機就可以通過網路(通訊網絡或互聯網絡)實現遠程登錄;(4)聲紋辨認和确認的算法複雜度低;(5)配合一些其他措施,如通過語音識别進行内容鑒别等,可以提高準确率;……等等。這些優勢使得聲紋識别的應用越來越收到系統開發者和用戶親睐,聲紋識别的世界市場占有率15.8%,僅次于手指和手的生物特征識别,并有不斷上升的趨勢。
分類
聲紋識别(Voiceprint Recognition,VPR),也稱為說話人識别(Speaker Recognition),有兩類,即說話人辨認(Speaker Identification)和說話人确認(Speaker Verification)。前者用以判斷某段語音是若幹人中的哪一個所說的,是“多選一”問題;而後者用以确認某段語音是否是指定的某個人所說的,是“一對一判别”問題。不同的任務和應用會使用不同的聲紋識别技術,如縮小刑偵範圍時可能需要辨認技術,而銀行交易時則需要确認技術。不管是辨認還是确認,都需要先對說話人的聲紋進行建模,這就是所謂的“訓練”或“學習”過程。
從另一方面,聲紋識别有文本相關的(Text-Dependent)和文本無關的(Text-Independent)兩種。與文本有關的聲紋識别系統要求用戶按照規定的内容發音,每個人的聲紋模型逐個被精确地建立,而識别時也必須按規定的内容發音,因此可以達到較好的識别效果,但系統需要用戶配合,如果用戶的發音與規定的内容不符合,則無法正确識别該用戶。而與文本無關的識别系統則不規定說話人的發音内容,模型建立相對困難,但用戶使用方便,可應用範圍較寬。根據特定的任務和應用,兩種是有不同的應用範圍的。比如,在銀行交易時可以使用文本相關的聲紋識别,因為用戶自己進行交易時是願意配合的;而在刑偵或偵聽應用中則無法使用文本相關的聲紋識别,因為你無法要求犯罪嫌疑人或被偵聽的人配合。
在說話人辨認方面,根據待識别的說話人是否在注冊的說話人集合内,說話人辨認可以分為開集(open-set)辨認和閉集(close-set)辨認。前者假定待識别說話人可以在集合外,而後者假定待識别說話人在集合内。顯然,開集辨認需要有一個對集外說話人的“拒識問題”,而且閉集辨認的結果要好于開集辨認結果。本質上講,說話人确認和開集說話人辨認都需要用到拒識技術,為了達到很好的拒識效果,通常需要訓練一個假冒者模型或背景模型,以便拒識時有可資比較的對象,阈值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識别的性能。一個好的背景模型,往往需要通過預先采集好的若幹說話人的數據,通過某種算法去建立。
如果技術達到一定的水平,可以把文本相關識别并入文本無關識别,把閉集辨認并入開集辨認,從而提供更為方便的使用方法。比如北京得意音通技術有限公司的“得意”身份證就是文本無關的、開集方式的說話人辨認和确認,“得意”身份證SDK還提供建立背景模型的工具。
關鍵問題
聲紋識别可以說有兩個關鍵問題,一是特征提取,二是模式匹配(模式識别)。
特征提取的任務是提取并選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特征。與語音識别不同,聲紋識别的特征必須是“個性化”特征,而說話人識别的特征對說話人來講必須是“共性特征”。雖然目前大部分聲紋識别系統用的都是聲學層面的特征,但是表征一個人特點的特征應該是多層面的,包括:(1)與人類的發音機制的解剖學結構有關的聲學特征(如頻譜、倒頻譜、共振峰、基音、反射系數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等;(3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特征。從利用數學方法可以建模的角度出發,聲紋自動識别模型目前可以使用的特征包括:(1)聲學特征(倒頻譜);(2)詞法特征(說話人相關的詞n-gram,音素n-gram);(3)韻律特征(利用n-gram描述的基音和能量“姿勢”);(4)語種、方言和口音信息;(5)通道信息(使用何種通道);等等。
根據不同的任務需求,聲紋識别還面臨一個特征選擇或特征選用的問題。例如,對“信道”信息,在刑偵應用上,希望不用,也就是說希望弱化信道對說話人識别的影響,因為我們希望不管說話人用什麼信道系統它都可以辨認出來;而在銀行交易上,希望用信道信息,即希望信道對說話人識别有較大影響,從而可以剔除錄音、模仿等帶來的影響。
總之,較好的特征,應該能夠有效地區分不同的說話人,但又能在同一說話人語音發生變化時保持相對的穩定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能;……。當然,這些問題也可以通過模型方法去解決。
模式識别
對于模式識别,有以下幾大類方法:
(1)模闆匹配方法:利用動态時間彎折(DTW)以對準訓練和測試特征序列,主要用于固定詞組的應用(通常為文本相關任務);
(2)最近鄰方法:訓練時保留所有特征矢量,識别時對每個矢量都找到訓練矢量中最近的K個,據此進行識别,通常模型存儲和相似計算的量都很大;
(3)神經網絡方法:有很多種形式,如多層感知、徑向基函數(RBF)等,可以顯式訓練以區分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;
(4)隐式馬爾可夫模型(HMM)方法:通常使用單狀态的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
(5)VQ聚類方法(如LBG):效果比較好,算法複雜度也不高,和HMM方法配合起來更可以收到更好的效果;
(6)多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大;
聲紋識别需要解決的關鍵問題還有很多,諸如:短話音問題,能否用很短的語音進行模型訓練,而且用很短的時間進行識别,這主要是聲音不易獲取的應用所需求的;聲音模仿(或放錄音)問題,要有效地區分開模仿聲音(錄音)和真正的聲音;多說話人情況下目标說話人的有效檢出;消除或減弱聲音變化(不同語言、内容、方式、身體狀況、時間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響;……此時需要用到其他一些技術來輔助完成,如去噪、自适應等技術。
對說話人确認,還面臨一個兩難選擇問題。通常,表征說話人确認系統性能的兩個重要參數是錯誤拒絕率和錯誤接受率,前者是拒絕真正說話人而造成的錯誤,後者是接受集外說話人而造成的錯誤,二者與阈值的設定相關。在現有的技術水平下,兩者無法同時達到最小,需要調整阈值來滿足不同應用的需求,比如在需要“易用性”的情況下,可以讓錯誤拒絕率低一些,此時錯誤接受率會增加,從而安全性降低;在對“安全性”要求高的情況下,可以讓錯誤接受率低一些,此時錯誤拒絕率會增加,從而易用性降低。前者可以概括為“甯錯勿漏”,而後者可以“甯漏勿錯”。我們把真正阈值的調整稱為“操作點”調整。好的系統應該允許對操作點的自由調整。
實用領域
聲紋識别可以應用的範圍很寬,可以說聲紋識别幾乎可以應用到人們日常生活的各個角落。比如下面舉幾個例子。
(1)信息領域。比如在自動總機系統中,把“得意”身份證之聲紋辨和“得意”關鍵詞檢出器結合起來,可以在姓名自動撥号的同時向受話方提供主叫方的身份信息。前者用于身份認證,後者用于内容認證。同樣,聲紋識别技術可以在呼叫中心(Call Center)應用中為注冊的常客戶提供友好的個性化服務。
(2)銀行、證券。鑒于密碼的安全性不高,可以用聲紋識别技術對電話銀行、遠程炒股等業務中的用戶身份進行确認,為了提供安全性,還可以采取一些其他措施,如密碼和聲紋雙保險,如随機提示文本用文本相關的聲紋識别技術進行身份确認(随機提示文本保證無法用事先錄好的音去假冒),甚至可以把交易時的聲音錄下來以備查詢。
(3)公安司法。對于各種電話勒索、綁架、電話人身攻擊等案件,聲紋辨認技術可以在一段錄音中查找出嫌疑人或縮小偵察範圍;聲紋确認技術還可以在法庭上提供身份确認的旁證。
(4)軍隊和國防。聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現,繼而對交談的内容進行跟蹤(戰場環境監聽);在通過電話發出軍事指令時,可以對發出命令的人的身份進行确認(敵我指戰員鑒别)。目前該技術在國外軍事方面已經有所應用,據報道,迫降在我國海南機場的美軍EP-3偵察機中就載有類似的聲紋識别偵聽模塊。
(5)保安和證件防僞。如機密場所的門禁系統。又如聲紋識别确認可用于信用卡、銀行自動取款機、門、車的鑰匙卡、授權使用的電腦、聲紋鎖以及特殊通道口的身份卡,把聲紋存在卡上,在需要時,持卡者隻要将卡插入專用機的插口上,通過一個傳聲器讀出事先已儲存的暗碼,同時儀器接收持卡者發出的聲音,然後進行分析比較,從而完成身份确認。同樣可以把含有某人聲紋特征的芯片嵌入到證件之中,通過上面所述的過程完成證件防僞。
認證與管理解決方案
背景
社保社會化以後,因為就業單位的搬遷、變更、關閉,退休人員異地養老等原因,造成投保人員頻繁流動、分散。所以确定投保人的生存狀況一直是社保支付理賠工作中的一個難題,全國各地陸續出現了社保基金被冒領的現象,尤其是養老保險金被冒領的情況更為嚴重;解決這一難題的唯一出路在于采用生物識别技術進行身份認證,而語音生物特征(聲紋)識别是唯一可用于非接觸式、通過電話網絡遠程安全控制的生物識别方法。
語音生物特征識别,又稱說話人識别,俗稱聲紋識别,是根據說話人的發音生理和行為特征,自動識别說話人身份的一種生物識别方法。聲紋識别所提供的安全性可與其他生物識别技術(如:指紋、掌形和虹膜)相媲美,而且語音采集裝置造價低廉,隻需電話/手機或麥克風即可,無需特殊的設備;它與說話語言無關,與方言腔調無關,不涉及隐私問題,适應人群範圍很廣;聲音信号便于遠程傳輸和獲取,在基于電信和網絡的身份識别應用中,聲紋識别更為擅長,得天獨厚。
針對遠程(電話和網絡)身份認證的安全需求,起源于美國矽谷的上海電虹軟件有限公司,緊跟國際技術前沿,由美國加州大學、中國科學院、北京大學以及美國矽谷多家高科技公司分别錘煉過的核心技術團隊,經過多年的潛心研究,自主研發出了具有世界先進水平的聲紋識别服務引擎-電虹X-Guardian,它可以在電話網絡或者電腦上根據語音輸入快速準确地識别說話人,從而為養老金防冒領問題的解決帶來了新的契機。
技術原理
養老金能否被冒領的關鍵問題之一就是:能否快速安全準确地遠程識别和确認社保對象的身份;隻要能通過某種簡單方便且安全可靠的手段确保身份合法,就可以基本杜絕養老金被非法領取的現象。類似于人類的指紋和DNA,聲紋也是人體獨特的個性生物特征,很難找到兩個聲紋完全一樣的人。如果能夠預先采集到養老金領取人的聲音樣本,從中抽取出聲紋識别“基因”序列,然後在定期的資格認證時,将領取人的聲紋與聲紋庫中的聲紋進行比對确認,就能夠輕易地判斷領取人是否合法。對于極少量的聾啞人群等特殊人群,再輔以人工檢查手段确認。這樣兩者結合起來,不僅将大幅度降低冒領的可能性,而且極大地提供社保服務機構的工作效率。以自主研發的聲紋識别服務引擎X-Guardian為基礎,結合跨媒體交互通信與應用服務平台X-FonServer,電虹公司-FondianCorporation(www.fondian.com)為社保服務機構提供了完整的社保聲紋身份認證防冒領解決方案;電虹社保聲紋認證方案融合了聲紋識别、電話語音通信、網絡數據通信、數據庫管理與WEB應用,通過這種非接觸式、造價低廉、操作簡單的聲紋識别與電話網絡通信手段,突破性地解決了防冒領現象“量大面廣”的實際問題。
聲紋識别的主要任務包括:語音信号處理、聲紋特征提取、聲紋建模、聲紋比對、判别決策等。社保服務對象的聲紋身份認證,分為兩個階段:一是聲紋注冊階段:可能在社區工作人員的現場監督下,社保服務對象采用電話語音交互應答的方式向系統輸入注冊語音樣本,系統利用從注冊語音中提取的聲紋特征序列,為用戶構建聲紋模型;二是聲紋認證階段:社保服務對象通常會被要求定期地做資格認證,那麼他/她可以随時随地通過移動/電話直接撥打社保服務熱線,在遠端系統的語音提示下,在線應答說話,系統自動地錄取用戶的語音,開展聲紋識别身份認證;另外,系統可以根據電話用戶語音身份認證的狀況,适當地更新或者調整用戶的聲紋模型。
系統結構
整個系統的物理結構如圖所示,主要由三大部分組成:
電話通信終端:主要由養老金領取人使用,通過移動/電話進行遠程非接觸式聲紋認證;
電腦操控終端:主要由社保管理機構的工作人員使用,通過它可以查詢每期的聲紋認證結果,維護用戶信息和聲紋數據庫,對于已經不具備養老金發放資格的人員辦理停止發放手續等;
聲紋認證系統:聲紋認證是一個融合多種技術的服務,它由一系列分工協作的服務子系統構成,包括:電話語音交互應答、聲紋自動識别、應用信息查詢和數據庫,另外還可選擇性地包括語音合成、語音識别等子系統。
采用這種高科技手段來開展社保身份認證與管理,隻需要在社保機構的總部安裝一台帶有語音通信闆卡硬件和電虹公司軟件系統的工控機、服務器或者PC兼容機,連接普通電話線或者ISDN數字專線即可工作,客戶端則僅需要一台普通的固定電話或者移動電話,使用操作簡單,認證準确安全可靠。



















