本發(fā)明涉及語音信號處理,更具體的,涉及一種基于雙重對抗學習的語音情感識別方法及識別系統(tǒng)。
背景技術:
1、近年來,隨著語音信號處理技術的快速發(fā)展,語音情感識別作為人機交互領域的重要研究方向,得到了廣泛關注。然而,語音信號中通常包含大量的說話人信息和內容信息,這些信息會對情感識別任務造成干擾,降低模型的識別能力。因此,需要一種有效的技術手段,提取僅包含情感信息的語音特征,從而提高語音情感識別的準確性。
2、現(xiàn)有的語音情感識別方法通常直接使用語音信號的特征進行情感分類,缺乏有效的機制去除說話人和內容相關的干擾信息。因此,如何去除說話人信息和內容信息,實現(xiàn)更高精度的語音情感識別是亟需解決的問題。
技術實現(xiàn)思路
1、為了解決上述技術問題,本發(fā)明提出了一種基于雙重對抗學習的語音情感識別方法及識別系統(tǒng),通過對抗說話人分類器和對抗音素分類器的訓練,去除語音信號中的說話人信息和內容信息,從而提取僅包含情感信息的特征用于情感分類。
2、本發(fā)明提供了一種基于雙重對抗學習的語音情感識別方法,包括以下步驟:
3、獲取語音信號并進行預處理,使用情感分類器中的wavlm預訓練模型從預處理后的語音信號中提取wavlm特征;
4、將提取的wavlm特征分別送入情感編碼器、對抗音素分類器和對抗說話人分類器,并分別計算情感分類器、對抗音素分類器及對抗說話人分類器的交叉熵損失;
5、將計算的三個交叉熵損失相加得到總損失函數(shù),使用所述總損失函數(shù)同時訓練情感分類器、對抗音素分類器及對抗說話人分類器;
6、將待識別語音信號分別導入訓練好的情感分類器、對抗音素分類器和對抗說話人分類器,通過雙重對抗學習去除待識別語音信號中的說話人信息及內容信息,通過情感分類器獲取待識別語音信號的情感類別。
7、本方案中,獲取語音信號并進行預處理,使用情感分類器中的wavlm預訓練模型從預處理后的語音信號中提取wavlm特征,具體為:
8、獲取海量的帶音素標注、情感標注及說話人標注的語音信號,對所述語音信號進行頻域分析,獲取語音信號對應的頻帶分量分布,通過所述頻帶分量分布確定對應的頻率段,根據(jù)所述頻率段配置帶通濾波去除不符合頻率要求的信號;
9、將帶通濾波后的語音信號進行下采樣,使用雙正交小波基進行數(shù)字濾波,獲取降噪后的語音信號,計算出降噪后語音信號的小波熵,獲取最大小波熵及最小小波熵之間的區(qū)間生成閾值區(qū)間;
10、使用所述閾值區(qū)間對降噪后的語音信號進行模糊語音分辨,當語音信號的小波熵不處于所述閾值區(qū)間時,則進行剔除,遍歷所有語音信號后獲取預處理后的語音信號;
11、構建wavlm預訓練模型,在所述wavlm預訓練模型的訓練中,使用卷積編碼器及transformer編碼器語音信號進行特征編碼,隨機對輸入語音信號進行變換,再隨機遮蓋預設比例的語音信號,并預測被遮蓋位置所對應的標簽;
12、完成訓練后使用wavlm預訓練模型提取預處理后的語音信號對應的標簽序列的概率分布,將所述概率分布作為wavlm特征,所述wavlm特征包含情感信息、音素信息及說話人信息。
13、本方案中,所述情感分類器由wavlm預訓練模型、情感編碼器、全連接層及softmax分類層組成;
14、所述對抗音素分類器由梯度反轉、音素編碼器、全連接層及softmax分類層組成;
15、所述對抗說話人分類器梯度反轉、說話人編碼器、全連接層及softmax分類層組成;
16、將獲取的wavlm特征分別作為情感編碼器、對抗音素分類器和對抗說話人分類器的輸入,分別計算情感分類器、對抗因素分類器及對抗說話人分類器的交叉熵損失。
17、本方案中,所述對抗音素分類器,具體為:
18、將獲取的wavlm特征導入音素編碼器,在音素編碼器中通過一層卷積層進行初始卷積,接著采用兩層卷積層進行下采樣,減小特征尺寸,使用三個相同的殘差模塊對下采樣得到的特征進行音素特征提取,并在特征提取中引入多頭自注意力機制,獲取音素編碼;
19、將獲取的音素編碼導入判別器,通過梯度反轉層利用負系數(shù)乘以誤差控制反向傳播,使得梯度反轉層前后的網(wǎng)絡學習目標相反,實現(xiàn)音素特征的對抗學習;
20、使用全連接層及softmax激活函數(shù)對wavlm特征中的音素信息進行分類預測。
21、本方案中,基于對抗音素分類器通過共享特征配置情感分類器及對抗說話人分類器的參數(shù),采用帶標注的語音信號對應的wavlm特征對所述對抗音素分類器、情感分類器及對抗說話人分類器同時進行有監(jiān)督訓練;
22、將獲取的wavlm特征導入配置好的對抗說話人分類器,對wavlm特征中的說話人信息進行分類預測;
23、根據(jù)wavlm特征中的音素信息標簽及說話人信息標簽進行內容信息及說話人信息的標記,將標記的內容信息及說話人信息進行剔除。
24、本方案中,分別計算情感分類器、對抗因素分類器及對抗說話人分類器的交叉熵損失,具體為:
25、將帶標注的語音信號對應的wavlm特征按照比例劃分為訓練集及測試集,初始化情感分類器、對抗因素分類器及對抗說話人分類器的框架參數(shù)及學習率,使用訓練集中的訓練樣本輸入三個分類器中進行訓練;
26、在三個分類器的訓練過程中,基于訓練樣本與標簽信息的從屬關系計算情感分類器的輸出與情感標注之間的情感交叉熵損失、對抗音素分類器的輸出與音素標注之間的音素交叉熵損失、對抗說話人分類器的輸出與說話人標注之間的說話人交叉熵損失;
27、使用所述情感交叉熵損失、音素交叉熵損失及說話人交叉熵損失進行相加,構建總損失函數(shù)監(jiān)督三個分類器的訓練,根據(jù)前向傳播中總損失迭代更新合成三個分類器的網(wǎng)絡參數(shù),使用測試集進行分類性能測試,當性能測試結果符合預設標準時,則完成三個分類器的訓練。
28、本方案中,獲取預處理后的待識別語音信號,將所述待識別語音信號分別導入訓練好的情感分類器、對抗音素分類器和對抗說話人分類器;
29、通過雙重對抗學習去除待識別語音信號中的說話人信息及內容信息,通過情感分類器中的全連接層及softmax函數(shù)獲取待識別語音信號對應的情感標簽概率分布,根據(jù)所述概率分布輸出待識別語音信號的情感類別。
30、本發(fā)明第二方面提供了一種基于雙重對抗學習的語音情感識別系統(tǒng),該系統(tǒng)包括:語音信號輸入模塊、情感分類器模塊、對抗音素分類器模塊、對抗說話人分類器模塊、分類器訓練模塊及語音情感輸出模塊;
31、所述語音信號輸入模塊負責獲取待識別語音信號,并將所述待識別語音信號進行預處理;
32、所述情感分類器模塊負責提取待識別語音信號的wavlm特征,根據(jù)所述wavlm特征獲取待識別語音信號的情感類別;
33、所述對抗音素分類器模塊負責去除待識別語音信號的內容信息;
34、所述對抗說話人分類器模塊負責去除待識別語音信號的說話人信息;
35、所述分類器訓練模塊負責采用帶有標注的語音信號對情感分類器、對抗音素分類器及對抗說話人分類器進行訓練;
36、所述語音輸出模塊負責輸出待識別語音信號對應不含內容信息及說話人信息的情感類別信息,并按照預設方式進行展示。
37、與現(xiàn)有技術相比,本發(fā)明的有益效果為:
38、本發(fā)明通過對說話人分類器和音素分類器分別進行對抗學習,去除語音信號中的說話人信息和內容信息,從而提取只包含情感信息的特征用于語音情感識別,有效的提高了語音情感識別的準確率。