直播平臺成為投資者爭相搶占的行業風口,“直播”成為近年來炙手可熱的關鍵詞,恐怕沒有太大爭議。如果說去年“papi醬”的爆紅依賴于視頻直播行業原創視頻備受追捧以及視頻內容個性化迎合大眾口味,那么不得不說在此之后網紅時代所帶來的更多的是直播圈子里的亂象,大尺度戲碼,重口味表演。
直播圈急需文化部門的關注以及各直播平臺的自身監管。顯然,要解決這一問題就必須要有比人工鑒別效率更高的手段,用人工智能技術來鑒別就是現在直播平臺通用的手段。雖然不少企業都把目光聚焦在視頻鑒別上,但音頻審核也是人工智能鑒別技術的一部分,二者缺一不可。那在大家熟悉的視頻鑒別之外,音頻檢測究竟能解決哪些問題?這一技術是如何進行鑒別的呢?極限元智能科技聯合創始人馬驥為大家解讀關于音頻審核背后的技術。
全民直播時代 音視頻審核技術如何實現語音識別?
一、音視頻審核的需求現狀
音視頻審核主要針對互聯網傳播的信息進行審核,審核的內容有不良信息、劣質信息。以直播平臺為例,2016年,是互聯網直播平臺爆發的一年,除了各式各樣的直播形式。與此同時,也出現了大量的在線實時信息,這其中有害信息是最為嚴重的一個現象。今年,相關部門已經針對這些亂象加大了打擊力度,因此基于互聯網直播平臺的有害信息檢測成為重中之重。
以圖像識別技術為基礎如何進行鑒別?在直播的時候,每個直播間會間隔一秒或幾秒采集一個關鍵幀,關鍵幀會發送到圖像識別引擎,引擎根據圖像的顏色、紋理等等特征來對敏感圖像進行過濾,這一過程會檢測肢體輪廓等關鍵特征信息,然后對檢測圖像特征與特征庫模型里面的特征相似度進行匹配,給予待測圖像不良、正常、性感等不同維度的權重值,以權重值最高的作為判定結果輸出。
基于圖像識別得視頻鑒別檢測準確率可以達到99%以上,可以為視頻直播平臺節省70%以上的工作量。
還有一些是語音為主的直播節目,比如談話聊天、脫口秀、在線廣播等。視頻檢測所使用到的圖像技術就很難在這些應用場景發揮作用,所以音頻檢測需要有針對性的技術手段。
除了剛剛提到的幾個音頻檢測應用場景之外,例如網絡音視頻資源審核,例如微信發布語音視頻信息,平臺后臺會對這些數據進行審核;另外公安技偵通過技術手段來偵查網絡、電話犯罪行為;第三個是呼叫中心,傳統呼叫中心會產生大量的電話錄音,很多行業會對這些錄音進行錄音質檢,從這些錄音中提取業務開展的情況;最后一個是電信安全,主要是以關鍵詞檢索的手段來防止電信詐騙。
二、音頻檢測采用的技術手段
音頻可以分為有內容和無內容兩種:說話內容相關的包括說了什么?(涉政、涉詐、涉賭還是廣告信息),另外還可以從說話內容來判斷語種以及說話人的辨識;此外還有與說話內容無關的信息,例如特定錄音片段、歌曲旋律、環境音等等。
針對不同的數據類型有不同的檢測技術。針對說話內容有語音識別、關鍵詞檢索等;針對語種的判別有語種識別的技術;針對說話人的識別有聲紋識別技術;針對說話內容無關的通常采用音頻比對的技術來進行檢測。
語音識別的關鍵技術——聲學模型
語音識別的聲學模型主要有以下兩種:混合聲學模型和端到端的聲學模型。
混合聲學模型通常是隱馬爾科夫模型結合混合高斯、深度神經網絡、深度循環神經網絡以及深度卷積神經網絡的一個模型。端到端聲學模型目前有兩大類,一是連接時序分類—長短時記憶模型,二是注意力模型。
混合高斯—隱馬爾科夫模型是根據語音的短時平穩性采用采用隱馬爾科夫模型對三因子進行建模。圖中顯示的是,輸入語音參數通過混合高斯模型計算每一個隱馬爾科夫模型狀態的后驗概率,然后隱馬爾可夫模型轉移概率來描述狀態之間的轉移。
混合神經網絡—隱馬爾科夫模型是將混合高斯模型用深度神經網絡進行替代,但是保留了隱馬爾科夫的結構,對于輸入端的擴幀和深度神經網絡的非線性變換,識別率可以得到很大的提升。
前面的深度神經網絡對歷史信息的建模只是通過在輸入端擴幀實現的,但對歷史信息的建模作用是有限的。
在深度循環神經網絡中,對輸入的歷史信息可以進行有效的建模,可以做大限度的保留歷史信息。根據現有的實驗結果來看,在很多任務上,深度循環神經網絡性能表現要由于深度神經網絡。當然,深度循環神經網絡也存在一些缺點。例如,在訓練的時候,會出現梯度爆炸和梯度消失的問題。
那么如何有限解決梯度爆炸和梯度消失的問題呢?學者又引入了一種長短時記憶模型。長短時記憶模型采用控制門(包括輸入門、遺忘門和輸出門)將梯度累積變成梯度累加,在一定程度上可以解決深度循環神經網絡訓練時梯度消失的問題。
上面提到的深度循環神經網絡能夠有效地對歷史信息進行建模,但是它存在計算量太大的問題,特別是為了減少這種梯度消失又引入了長短時記憶模型之后,計算的信息量有加劇。應對這一難題,業界又引入了深度卷積神經網絡模型。這種模型在圖像識別領域和語音識別領域都得到了顯著的效果。
在語音識別領域,我們可以從圖中可以看出,一共有四種深度神經網絡的模型結構,隨著深度的增加可以有效地提升聲學模型的構建能力。
語言模型
語言模型——N-Gram
基于N-Gram的特點是每個詞出現的概率,之和前面第N-1個詞有關,整句話出現的概率是每個詞出現的概率的乘積。N-Gram有一個缺點,由于數據稀缺性需要進行一個平滑算法,然后得到后驗概率。
語言模型——DNN-Gram
DNN-Gram把深度神經網絡引入可以有效地克服平滑算法的誤差。例如圖中顯示的,通過深度神經網絡構建語音性不需要平滑算法的處理。
語言模型——RNN-Gram
和聲學模型一樣,構建語言模型也需要對歷史信息進行訓練建模,在聲學模型中提到的深度循環神經網絡在這里也有應用。
基于深度神經網絡的語言模型每個詞出現的概率和N-Gram一樣,只是和向前的第N-1個詞有關,但實際上,每個詞出現的頻率和之前所有詞都有相關性,因此需要引入歷史信息進行訓練建模。所以在這里加入了RNN-Gram進行語言模型的構建。
近幾年,語音識別的聲學模型和語言模型都得到了很大的提高。2016年,微軟的語音識別團隊宣稱在swithboard數據集上超過了人類,swithboard數據集是一個以口語為主的訓練測試數據集,包含了大量的副語言,所以用這種數據集進行語音識別測試具有一定的挑戰性。
不過,語音識別在一些特殊領域的識別效果就大打折扣了。在強干擾環境和特殊領域中,可以通過基于語音識別的關鍵詞檢索方法來進行音頻信息的檢查。
基于語音識別的關鍵詞檢索
基于語音識別的關鍵詞檢索是將語音識別的結構構建成一個索引網絡,然后把關鍵詞從索引網絡中找出來。從這一流程圖中可以看到,首先把語音進行識別處理,從里面提取索引構建索引網絡,進行關鍵詞檢索的時候,我們會把關鍵詞表在網絡中進行頻率,找到概率最高的,輸出其關鍵詞匹配結果。
構建檢索網絡
構建檢索網絡是語音關鍵詞檢索的重要環節。在這個圖中,在第一個時間段內(w1、w3、w6、w7),這句話被識別成了四個不同的詞,語音識別只能給出一條路徑,但在語音關鍵詞檢索網絡中可以從四個結果中進行篩選。
關鍵詞檢索
有了檢索網絡后,接下來的工作就是關鍵詞檢索工作。關鍵詞檢索是基于音節數據,首先將用戶設定的關鍵詞文本解析成音節數據,再從檢索網絡中找出匹配結果,相比語音識別這種文本結果檢索,這種容錯性更強,而且關鍵詞檢索可以只用在基于CTC,計算量更小,執行效率更高,更適用于海量數據的檢索場景。
說話人識別的關鍵技術
說話人識別也稱之為聲紋識別,主要目的是對說話人的身份確認和辨識。
它的流程如下:首先對說話人的訓練建模,把注冊語音進行特征提取,模型訓練之后得到說話人的模型庫;在測試的時候,我們需要通過一個很短的音頻去提取特征值,然后基于之前構建的模型進行閾值判斷,判斷出是集合內還是外,最終確認身份。在這一過程中,注冊語音只要10s左右的語音,測試只要2-5s的語音。
說話人識別的關鍵技術——模型訓練GMM。完成關鍵特征提取后就要進行模型訓練。GMM的訓練流程是:首先把訓練語音進行特征提取,得到梅爾頻率倒譜系數,然后生成一個通用背景模型,再通過MAP的方法得到說話人的模型。
注冊語音的流程也是類似,通過特征提取,進行模型訓練得到混合高斯模型。在測試的時候,把測試語音進行特征提取,然后從通用背景模型和混合高斯模型進行最大相似度的判斷,再輸出識別結果。
說話人識別的關鍵技術——模型訓練I-Vector
I-Vector在近兩年有比較廣泛的應用,它將說話人特征和信道特征統一建模,得到說話人特征通過信道補償記錄進行識別,有效解決了訓練樣本和實際檢測樣本存在信道不匹配的問題。信道特征對說話人識別的準確性干擾很大,如果前期學習建模過程中,能把信道特征統一建模后期在識別的時候,可以實現信道補償,大大提升說話人識別的魯棒性。
說話人識別的關鍵技術——模型訓練DNN
我們還可以進一步介入深度神經網絡的方式來提取統計量。用深度神經網絡替代一些統一背景模型,可以把音素相關信息通過語音識別的深度神經網絡結合起來,采集到更多的說話人特征信息。
音頻對比技術
音頻對比技術也是引用很早很廣泛的音頻檢索技術。音頻對比主要是從音頻信號中提取特征,通過特征進行比對來檢索。圖中提取的過程就是通過頻譜最大值點來建模。
特征構建
在完成最大值點完成建模后,我們需要進行特征的構建。特征構建是通過最大值點之間的距離來建模,例如兩個最大值點的距離、位置信息作為一個固定的特征來完成音頻特征信息的構建。有了上述音頻特征之后,就可以對兩個不同音頻進行檢索,最大相似度的地方就是相似點。這種技術最適用于錄音片段的檢索。
其它技術
1.語音欲處理技術:包括音頻編解碼、噪聲消除(軟件處理,硬件解決方案)、語音信號增強。
2.語義識別:對語音識別后的文本結果進行分析,結合上下文,來判斷真是意圖。
3.語種識別、男女聲識別:識別方言、外語語種、發音人性別進行識別。
4.流媒體技術:在實時音頻數據處理中,需要用到數據切分、數據緩存。
5.云平臺技術:云服務架構設計、、服務模塊化整合、負載均衡等。
6.大數據技術:海量數據存儲、訓練樣本自動提取、模型訓練等。
三、應用場景案例
音頻審核數據來源可以分為實時數據和存量數據。存量數據主要是現有的語音資源,實時數據則包括正在直播的廣播、電視節目等。
存量音頻數據審核
場景:電信運營商詐騙電話檢測
這是針對存量數據的解決方案,它有大量的通話錄音,而且因為設備供應商的不同,會造成音頻格式、音質不統一;另外,電話錄音還存在噪聲干擾、方言口音問題。
針對這類數據的檢測,我們可以提供一套完整的解決方案。
首先把通話錄音通過API接口上傳到關鍵詞檢索服務器上,關鍵詞檢索服務器的API網關對它的請求進行分類處理之后,移交給后續的業務網關來分發處理。首先要進行音頻預處理,音頻格式轉碼、語音降噪等,然后把處理后的文件存儲;接下來,把結果反饋給業務網關,由音頻比對對已知錄音片段進行檢測,如果有匹配這些錄音片段就反饋結果——存在詐騙信息。如果經過音頻比對沒有發現詐騙信息,我們會調用關鍵詞檢索服務。
實時音頻數據審核
場景:在線直播平臺敏感信息檢測
它的數據是實時生成的,需要用到流媒體技術,包含圖像、音頻兩大數據源,所用到的檢測技術也不一樣。音頻檢測還分為語種、說話人確認、內容識別。累積了大量的檢測數據之后,對后期的模型優化升級也提出了更高的要求。
首先會對直播中的音視頻資源提取,分別交由圖像處理模塊和語音處理模塊,針對圖像數據我們要提取關鍵幀,針對語音數據,我們會把視頻數據中的音頻資源提取出來。
圖像數據的處理,拿到圖像數據關鍵幀后會定時發送到處理平臺上( 雷鋒網注:可以在云端或者私有云部署)。
在圖像識別部分要對圖像預處理、圖像分割,拿到有效的區域來檢測,在有害信息識別檢測階段,我么會完成特征提取、目標分類、判斷匹配,找出里面涉黃、涉暴的信息。如果用戶有進一步的需求,例如廣告識別的要求,我們可以根據二維碼、數字、字符檢測技術來進行廣告的識別。音頻的數據提取之后,上傳到到服務器端。音頻實時處理有個局限是會占用大量的帶寬,所以通常采用私有云的部署方式。
點擊這里了解方維互動直播系統