午夜国产人人噜人人噜_粉嫩高中生无码视频在线观看_精品欧美成人高清在线观看_国语自产精品视频在 视频一区_国产精品无需播放器

解密實(shí)時(shí)通話中基于 AI 的一些語(yǔ)音增強(qiáng)技術(shù)

2023-06-09 06:56:49  |  來(lái)源:字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)  |    

背景介紹

實(shí)時(shí)音視頻通信 RTC 在成為人們生活和工作中不可或缺的基礎(chǔ)設(shè)施后,其中所涉及的各類(lèi)技術(shù)也在不斷演進(jìn)以應(yīng)對(duì)處理復(fù)雜多場(chǎng)景問(wèn)題,比如音頻場(chǎng)景中,如何在多設(shè)備、多人、多噪音場(chǎng)景下,為用戶提供聽(tīng)得清、聽(tīng)得真的體驗(yàn)。


(相關(guān)資料圖)

作為語(yǔ)音信號(hào)處理研究領(lǐng)域的旗艦國(guó)際會(huì)議,ICASSP (International Conference on Acoustics, Speech and Signal Processing) 一直代表著聲學(xué)領(lǐng)域技術(shù)最前沿的研究方向。ICASSP 2023 收錄了多篇和音頻信號(hào)語(yǔ)音增強(qiáng)算法相關(guān)的文章,其中,火山引擎RTC音頻團(tuán)隊(duì)共有4篇研究論文被大會(huì)接收,論文方向包括特定說(shuō)話人語(yǔ)音增強(qiáng)、回聲消除、多通道語(yǔ)音增強(qiáng)、音質(zhì)修復(fù)主題。本文將介紹這 4 篇論文解決的核心場(chǎng)景問(wèn)題和技術(shù)方案,分享火山引擎 RTC 音頻團(tuán)隊(duì)在語(yǔ)音降噪、回聲消除、干擾人聲消除領(lǐng)域的思考與實(shí)踐。

《基于頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)的特定說(shuō)話人增強(qiáng)》

論文地址:

https://ieeexplore.ieee.org/abstract/document/10097252

實(shí)時(shí)特定說(shuō)話人語(yǔ)音增強(qiáng)任務(wù)有許多問(wèn)題亟待解決。首先,采集聲音的全頻帶寬度提高了模型的處理難度。其次,相比非實(shí)時(shí)場(chǎng)景,實(shí)時(shí)場(chǎng)景下的模型更難定位目標(biāo)說(shuō)話人,如何提高說(shuō)話人嵌入向量和語(yǔ)音增強(qiáng)模型的信息交互是實(shí)時(shí)處理的難點(diǎn)。受到人類(lèi)聽(tīng)覺(jué)注意力的啟發(fā),火山引擎提出了一種引入說(shuō)話人信息的說(shuō)話人注意力模塊(Speaker Attentive Module,SAM),并將其和單通道語(yǔ)音增強(qiáng)模型-頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)(Band-split Recurrent Neural Network,BSRNN) 融合,構(gòu)建特定人語(yǔ)音增強(qiáng)系統(tǒng)來(lái)作為回聲消除模型的后處理模塊,并對(duì)兩個(gè)模型的級(jí)聯(lián)進(jìn)行優(yōu)化。

模型框架結(jié)構(gòu)頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)(BSRNN)

頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)(Band-split RNN, BSRNN)是全頻帶語(yǔ)音增強(qiáng)和音樂(lè)分離的 SOTA 模型,其結(jié)構(gòu)如上圖所示。BSRNN 由三個(gè)模塊組成,分別是頻帶分割模塊(Band-Split Module)、頻帶序列建模模塊(Band and Sequence Modeling Module)和頻帶合并模塊(Band-Merge Module)。頻帶分割模塊首先將頻譜分割為 K 個(gè)頻帶,每個(gè)頻帶的特征通過(guò)批歸一化(BN)后,被 K 個(gè)全連接層(FC)壓縮到相同的特征維度 C 。隨后,所有頻帶的特征被拼接為一個(gè)三維張量并由頻帶序列建模模塊進(jìn)一步處理,該模塊使用 GRU 交替建模特征張量的時(shí)間和頻帶維度。經(jīng)過(guò)處理的特征最后經(jīng)過(guò)頻帶合并模塊得到最后的頻譜掩蔽函數(shù)作為輸出,將頻譜掩蔽和輸入頻譜相乘即可得到增強(qiáng)語(yǔ)音。我們?cè)诿恳粋€(gè)頻帶序列建模模塊后添加了說(shuō)話人注意力模塊以構(gòu)建特定人語(yǔ)音增強(qiáng)模型。

說(shuō)話人注意力機(jī)制模塊 (SAM)

說(shuō)話人注意力模塊(Speaker Attentive Module)的結(jié)構(gòu)如上圖。其核心思想是使用說(shuō)話人嵌入向量 e作為語(yǔ)音增強(qiáng)模型中間特征的吸引子,計(jì)算其和中間特征所有時(shí)間和頻帶上的相關(guān)度 s,稱(chēng)作注意力值。該注意力值將被用于對(duì)中間特征 h進(jìn)行縮放規(guī)整。其具體公式如下:

首先通過(guò)全連接和卷積將 e 和 h 變換為 k 和 q:

k 和 q 相乘得到注意力值:

最后通過(guò)該注意力值縮放原始特征:

模型訓(xùn)練數(shù)據(jù)

關(guān)于模型訓(xùn)練數(shù)據(jù),我們采用了第五屆 DNS 特定說(shuō)話人語(yǔ)音增強(qiáng)賽道的數(shù)據(jù)以及 DiDispeech 的高質(zhì)量語(yǔ)音數(shù)據(jù),通過(guò)數(shù)據(jù)清洗,得到約 3500 個(gè)說(shuō)話人的清晰語(yǔ)音數(shù)據(jù)。在數(shù)據(jù)清洗方面,我們使用了基于 ECAPA-TDNN[1]說(shuō)話人識(shí)別的預(yù)訓(xùn)練模型來(lái)去除語(yǔ)音數(shù)據(jù)中殘留的干擾說(shuō)話人語(yǔ)音,同時(shí)使用第四屆 DNS 挑戰(zhàn)賽第一名的預(yù)訓(xùn)練模型來(lái)去除語(yǔ)音數(shù)據(jù)中的殘留噪聲。在訓(xùn)練階段,我們生成了超過(guò) 10 萬(wàn)條 4s 的語(yǔ)音數(shù)據(jù),對(duì)這些音頻添加混響以模擬不同信道,并隨機(jī)和噪聲、干擾人聲混合,設(shè)置成一種噪聲、兩種噪聲、噪聲和干擾說(shuō)話人以及僅有干擾說(shuō)話人 4 種干擾場(chǎng)景。同時(shí),為了模擬不同大小的輸入,含噪語(yǔ)音和目標(biāo)語(yǔ)音電平也會(huì)被隨機(jī)縮放。

《融合特定說(shuō)話人提取與回聲消除技術(shù)方案》

論文地址:

https://ieeexplore.ieee.org/abstract/document/10096411

回聲消除一直是外放場(chǎng)景中一個(gè)極其復(fù)雜且至關(guān)重要的問(wèn)題。為了能夠提取出高質(zhì)量的近端干凈語(yǔ)音信號(hào),火山引擎提出了一種結(jié)合信號(hào)處理與深度學(xué)習(xí)技術(shù)的輕量化回聲消除系統(tǒng)。在特定說(shuō)話人降噪(Personalized Deep Noise Suppression, pDNS ) 基礎(chǔ)上,我們進(jìn)一步構(gòu)建了特定說(shuō)話人回聲消除(Personalized Acoustic Echo Cancellation, pAEC)系統(tǒng),其包括一個(gè)基于數(shù)字信號(hào)處理的前處理模塊、一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的兩階段模型和一個(gè)基于 BSRNN 和 SAM 的特定說(shuō)話人語(yǔ)音提取模塊。

特定說(shuō)話人回聲消除總體框架

基于數(shù)字信號(hào)處理線性回聲消除的前處理模塊

前處理模塊主要包含兩部分:時(shí)延補(bǔ)償(TDC)和線性回聲消除(LAEC),該模塊均在子帶特征上進(jìn)行。

基于信號(hào)處理子帶線性回聲消除算法框架

時(shí)延補(bǔ)償

TDC 基于子帶互相關(guān),其首先分別在每個(gè)子帶中估計(jì)出一個(gè)時(shí)延,然后使用投票方法來(lái)確定最終時(shí)間延遲。

線性回聲消除

LAEC 是一種基于 NLMS 的子帶自適應(yīng)濾波方法,由兩個(gè)濾波器組成:前置濾波器(Pre-filter)和后置濾波器(Post-filter),后置濾波器使用動(dòng)態(tài)步長(zhǎng)進(jìn)行自適應(yīng)更新參數(shù),前置濾波器是狀態(tài)穩(wěn)定的后置濾波器的備份。通過(guò)比較前置濾波器和后置濾波器的輸出的殘余能量,最終選擇誤差信號(hào)。

LAEC 處理流程圖

基于多級(jí)卷積-循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(CRN)的兩階段模型

為了減輕模型建模負(fù)擔(dān),我們主張將 pAEC 任務(wù)解耦為“回聲抑制”和“特定說(shuō)話人提取”兩個(gè)任務(wù)。因此,后處理網(wǎng)絡(luò)主要由兩個(gè)神經(jīng)網(wǎng)路模塊組成:用于初步回聲消除和噪聲抑制的基于 CRN 的輕量級(jí)模塊,以及用于更好的近端語(yǔ)音信號(hào)重建的基于 pDNS 的后處理模塊。

第一階段:基于CRN的輕量級(jí)模塊

基于 CRN 的輕量級(jí)模塊由一個(gè)頻帶壓縮模塊、一個(gè)編碼器、兩個(gè)雙路徑 GRU、一個(gè)解碼器和一個(gè)頻帶分解模塊組成。同時(shí),我們還引入了一個(gè)語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection, VAD)模塊用于多任務(wù)學(xué)習(xí),有助于提高對(duì)近端語(yǔ)音的感知。CRN 以壓縮幅度作為輸入,并輸出初步的目標(biāo)信號(hào)復(fù)數(shù)理想比掩碼(cIRM)和近端 VAD 概率。

第二階段:基于pDNS的后處理模塊

這個(gè)階段的 pDNS 模塊包括了上述介紹的頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò) BSRNN 和說(shuō)話人注意力機(jī)制模塊 SAM,級(jí)聯(lián)模塊以串聯(lián)的方式接在輕量級(jí) CRN 模塊之后。由于我們的 pDNS 系統(tǒng)在特性說(shuō)話人語(yǔ)音增強(qiáng)任務(wù)上達(dá)到了較為優(yōu)異的性能,我們將一個(gè)預(yù)訓(xùn)練好的 pDNS 模型參數(shù)作為模型的第二階段初始化參數(shù),對(duì)前一階段的輸出進(jìn)一步處理。

級(jí)聯(lián)系統(tǒng)訓(xùn)練優(yōu)化損失函數(shù)

我們對(duì)兩階段模型進(jìn)行級(jí)聯(lián)優(yōu)化,讓模型在第一階段預(yù)測(cè)近端語(yǔ)音,在第二階段預(yù)測(cè)近端特定說(shuō)話人語(yǔ)音。同時(shí),我們還引入了一個(gè)近端 VAD 罰項(xiàng),增強(qiáng)模型對(duì)近端語(yǔ)音的感知。具體損失函數(shù)定義如下:

其中,

分別對(duì)應(yīng)模型第一階段和第二階段預(yù)測(cè)的 STFT 特征, 分別表示近端語(yǔ)音和近端特定說(shuō)話人語(yǔ)音的 STFT 特征,

分別表示模型預(yù)測(cè)和目標(biāo) VAD 狀態(tài)。

模型訓(xùn)練數(shù)據(jù)

為了使回聲消除系統(tǒng)可以處理多設(shè)備,多混響,多噪音采集場(chǎng)景的回聲,我們通過(guò)混合回聲和干凈語(yǔ)音,得到 2000+ 小時(shí)的訓(xùn)練數(shù)據(jù),其中,回聲數(shù)據(jù)使用 AEC Challenge 2023 遠(yuǎn)端單講數(shù)據(jù),干凈語(yǔ)音來(lái)自 DNS Challenge 2023 和 LibriSpeech,用于模擬近端混響的 RIR 集合來(lái)自 DNS Challenge。由于 AEC Challenge 2023 遠(yuǎn)端單講數(shù)據(jù)中的回聲存在少量噪聲數(shù)據(jù),直接用這些數(shù)據(jù)作為回聲容易導(dǎo)致近端語(yǔ)音失真,為了緩解這個(gè)問(wèn)題,我們采用了一種簡(jiǎn)單但有效的數(shù)據(jù)清理策略,使用預(yù)訓(xùn)練的一個(gè) AEC 模型處理遠(yuǎn)端單講數(shù)據(jù),將具有較高殘余能量的數(shù)據(jù)識(shí)別為噪聲數(shù)據(jù),并反復(fù)迭代下圖清洗流程。

級(jí)聯(lián)優(yōu)化方案系統(tǒng)效果

這樣的一套基于融合回聲消除與特定說(shuō)話人提取的語(yǔ)音增強(qiáng)系統(tǒng)在 ICASSP 2023 AEC Challenge 盲測(cè)試集 [2] 上驗(yàn)證了它在主客觀指標(biāo)上的優(yōu)勢(shì)——取得了 4.44 的主觀意見(jiàn)分(Subjective-MOS)和 82.2%的語(yǔ)音識(shí)別準(zhǔn)確率(WAcc)。

《基于傅立葉卷積注意力機(jī)制的多通道語(yǔ)音增強(qiáng)》

論文地址:

https://ieeexplore.ieee.org/document/10095716

基于深度學(xué)習(xí)的波束權(quán)值估計(jì)是目前解決多通道語(yǔ)音增強(qiáng)任務(wù)的主流方法之一,即通過(guò)網(wǎng)絡(luò)求解波束權(quán)值來(lái)對(duì)多通道信號(hào)進(jìn)行濾波從而獲得純凈語(yǔ)音。與傳統(tǒng)波束形成算法求解空間協(xié)方差矩陣的原理類(lèi)似,頻譜信息和空間信息在波束權(quán)值的估計(jì)中也起著重要作用。然而,現(xiàn)有許多神經(jīng)波束形成器都無(wú)法對(duì)波束權(quán)值進(jìn)行最優(yōu)估計(jì)。為處理這一挑戰(zhàn),火山引擎提出了一種傅里葉卷積注意力編碼器(Fourier Convolutional Attention Encoder, FCAE),該編碼器能在頻率特征軸上提供全局感受野,加強(qiáng)對(duì)頻率軸上下文特征的提取。同時(shí),我們也提出了一種基于 FCAE 的卷積循環(huán)編解碼器(Convolutional Recurrent Encoder-Decoder, CRED)的結(jié)構(gòu)用來(lái)從輸入特征中捕捉頻譜上下文特征和空間信息。

模型框架結(jié)構(gòu)波束權(quán)值估計(jì)網(wǎng)絡(luò)

該網(wǎng)絡(luò)借助嵌入波束網(wǎng)絡(luò)(Embedding and Beamforming Network,EaBNet)的結(jié)構(gòu)范式,將網(wǎng)絡(luò)分為嵌入模塊和波束模塊兩個(gè)部分,嵌入模塊用來(lái)提取聚合頻譜和空間信息的嵌入向量,并將該嵌入向量送入波束部分導(dǎo)出波束權(quán)值。這里采用一個(gè) CRED 結(jié)構(gòu)來(lái)學(xué)習(xí)嵌入張量,多通道輸入信號(hào)經(jīng)過(guò) STFT 變換后,送入一個(gè) CRED 結(jié)構(gòu)提取嵌入張量,該嵌入張量類(lèi)似傳統(tǒng)波束形成中的空間協(xié)方差矩陣,包含可區(qū)分語(yǔ)音和噪聲的特征。嵌入張量經(jīng)過(guò) LayerNorm2d 結(jié)構(gòu),再經(jīng)過(guò)兩層堆疊的 LSTM 網(wǎng)絡(luò),最后通過(guò)一個(gè)線性層導(dǎo)出波束權(quán)值。我們對(duì)該波束權(quán)值作用于多通道輸入頻譜特征上,進(jìn)行濾波求和操作,最后得到純凈語(yǔ)音譜,經(jīng)過(guò) ISTFT 變換即可得到目標(biāo)時(shí)域波形。

CRED結(jié)構(gòu)

我們采用的 CRED 結(jié)構(gòu)如上圖所示。其中,F(xiàn)CAE 為傅里葉卷積注意力編碼器,F(xiàn)CAD 為與 FCAE 對(duì)稱(chēng)的解碼器;循環(huán)模塊采用深度前饋?lái)樞蛴洃浘W(wǎng)絡(luò)(Deep Feedward Sequential Memory Network,DFSMN)對(duì)序列的時(shí)序依賴(lài)進(jìn)行建模,在不影響模型性能的基礎(chǔ)上減小模型尺寸;跳連接部分采用串聯(lián)的通道注意力(Channel Attention)和空間注意力(Spatial Attention)模塊,用來(lái)進(jìn)一步提取跨通道間的空間信息,并連接深層特征與淺層特征,方便信息在網(wǎng)路中的傳輸。

FCAE結(jié)構(gòu)

傅里葉卷積注意力編碼器(FCAE)的結(jié)構(gòu)如上圖所示。該模塊受傅里葉卷積算子[3]的啟發(fā),利用離散傅里葉變換在變換域上的任意一點(diǎn)的更新將會(huì)對(duì)原始域的信號(hào)產(chǎn)生全局影響的特點(diǎn),對(duì)頻率軸特征進(jìn)行一維 FFT 變換,即可在頻率軸上獲得全局感受野,進(jìn)而加強(qiáng)對(duì)頻率軸上下文特征的提取。此外,我們引入了空間注意力模塊和通道注意力模塊,進(jìn)一步增強(qiáng)卷積表達(dá)能力,提取有利的頻譜-空間聯(lián)合信息,增強(qiáng)網(wǎng)絡(luò)對(duì)純凈語(yǔ)音和噪聲可區(qū)分特征的學(xué)習(xí)。在最終表現(xiàn)上,該網(wǎng)絡(luò)以?xún)H 0.74M 的參數(shù)量取得了優(yōu)異的多通道語(yǔ)音增強(qiáng)效果。

模型訓(xùn)練數(shù)據(jù)

數(shù)據(jù)集方面,我們采用了 ConferencingSpeech 2021 比賽提供的開(kāi)源數(shù)據(jù)集,純凈語(yǔ)音數(shù)據(jù)包含 AISHELL-1、AISHELL-3、VCTK 以及 LibriSpeech(train-clean-360),挑選其中信噪比大于 15dB 的數(shù)據(jù)用于生成多通道混合語(yǔ)音,噪聲數(shù)據(jù)集采用 MUSAN、AudioSet。同時(shí),為了模擬實(shí)際多房間混響場(chǎng)景,通過(guò)模擬改變房間尺寸、混響時(shí)間、發(fā)聲源,噪聲源位置等方式將開(kāi)源的數(shù)據(jù)與超過(guò) 5000 個(gè)房間脈沖響應(yīng)進(jìn)行卷積,最終生成 6 萬(wàn)條以上多通道訓(xùn)練樣本。

《基于兩階段神經(jīng)網(wǎng)絡(luò)模型的音質(zhì)修復(fù)系統(tǒng)》

論文地址:

https://ieeexplore.ieee.org/document/10094827

除了特定說(shuō)話人增強(qiáng),回聲消除及多通道語(yǔ)音增強(qiáng)幾個(gè)方向,火山引擎也在音質(zhì)修復(fù)方向上做了一些嘗試。實(shí)時(shí)通信過(guò)程中存在的各種失真會(huì)影響語(yǔ)音信號(hào)的質(zhì)量,使語(yǔ)音信號(hào)的清晰度和可懂度下降?;鹕揭嫣岢隽艘粋€(gè)兩階段模型,該模型使用階段性的分治策略來(lái)修復(fù)影響語(yǔ)音質(zhì)量的多種失真。

模型框架結(jié)構(gòu)

下圖為兩階段模型整體框架構(gòu)圖,其中,第一階段模型主要修復(fù)頻譜缺失的部分,第二階段模型則主要抑制噪聲、混響以及第一階段模型可能產(chǎn)生的偽影。

第一階段模型:Repairing Net

整體采用深度復(fù)數(shù)卷積循環(huán)神經(jīng)網(wǎng)絡(luò) (Deep Complex Convolution Recurrent Network, DCCRN)[4]架構(gòu),包括 Encoder、時(shí)序建模模塊和 Decoder 三個(gè)部分。受圖像修復(fù)的啟發(fā),我們引入了 Gate 復(fù)值卷積和 Gate 復(fù)值轉(zhuǎn)置卷積代替 Encoder 和 Decoder 中的復(fù)值卷積和復(fù)值轉(zhuǎn)置卷積。為了進(jìn)一步提升音頻修補(bǔ)部分的自然度,我們引入了 Multi-Period Discriminator和 Multi-Scale Discriminator 用于輔助訓(xùn)練。

第二階段模型:Denoising Net

整體采用 S-DCCRN 架構(gòu),包括 Encoder、兩個(gè)輕量級(jí) DCCRN 子模塊和 Decoder 三個(gè)部分,其中兩個(gè)輕量級(jí) DCCRN 子模塊分別進(jìn)行子帶和全帶建模。為了提升模型在時(shí)域建模方面的能力,我們將 DCCRN子 模塊中的 LSTM 替換為 Squeezed Temporal Convolutional Module(STCM)。

模型訓(xùn)練數(shù)據(jù)

這里用來(lái)訓(xùn)練來(lái)音質(zhì)修復(fù)的干凈音頻、噪聲、混響均來(lái)自 2023 DNS 競(jìng)賽數(shù)據(jù)集,其中干凈音頻總時(shí)長(zhǎng)為 750 小時(shí),噪聲總時(shí)長(zhǎng)為 170 小時(shí)。在第一階段模型的數(shù)據(jù)增廣時(shí),我們一方面利用全帶音頻與隨機(jī)生成的濾波器進(jìn)行卷積, 20ms 為窗長(zhǎng)將音頻采樣點(diǎn)隨機(jī)置零和對(duì)音頻隨機(jī)進(jìn)行降采樣來(lái)模擬頻譜缺失缺陷,另一方面在音頻幅度頻與音頻采集點(diǎn)上分別乘以隨機(jī)尺度;在第二階段的數(shù)據(jù)增廣時(shí),我們利用第一階段已經(jīng)生成的數(shù)據(jù),再卷積各種類(lèi)型的房間沖激響應(yīng)得到不同混響程度的音頻數(shù)據(jù)。

音頻處理效果

在 ICASSP 2023 AEC Challenge中,火山引擎 RTC 音頻團(tuán)隊(duì),在通用回聲消除 (Non-personalized AEC) 與特定說(shuō)話人回聲消除 (Personalized AEC) 兩個(gè)賽道上榮獲冠軍,并在雙講回聲抑制,雙講近端語(yǔ)音保護(hù)、近端單講背景噪聲抑制、綜合主觀音頻質(zhì)量打分及最終語(yǔ)音識(shí)別準(zhǔn)確率等多項(xiàng)指標(biāo)上顯著優(yōu)于其他參賽隊(duì)伍,達(dá)到國(guó)際領(lǐng)先水平。

我們來(lái)看一下經(jīng)過(guò)上述技術(shù)方案后,火山引擎 RTC 在不同場(chǎng)景下的語(yǔ)音增強(qiáng)處理效果。

不同信噪回聲比場(chǎng)景下的回聲消除

下面兩個(gè)例子分別展示了回聲消除算法在不同信號(hào)回聲能量比例場(chǎng)景下處理前后的對(duì)比效果。

中等信回聲比場(chǎng)景

超低信回比場(chǎng)景對(duì)回聲消除的挑戰(zhàn)性最大,此時(shí)我們不僅需要有效去除大能量的回聲,還需要同時(shí)最大程度保留微弱的目標(biāo)語(yǔ)音。如下樣本中,女聲為目標(biāo)說(shuō)話人語(yǔ)音,男生為非目標(biāo)說(shuō)話人語(yǔ)音(回聲),目標(biāo)語(yǔ)音幾乎被非目標(biāo)語(yǔ)音完全覆蓋了。

超低信回聲比場(chǎng)景

不同背景干擾說(shuō)話人場(chǎng)景下的說(shuō)話人提取

下面兩個(gè)例子分別展示了特定說(shuō)話人提取算法在噪音與背景人干擾場(chǎng)景下處理前后的對(duì)比效果。

如下樣本中,特定說(shuō)話人既有類(lèi)似門(mén)鈴的噪聲干擾,又有背景人說(shuō)話噪聲干擾,僅使用 AI 降噪只能去除門(mén)鈴噪聲,因此還需要針對(duì)特定說(shuō)話人進(jìn)行人聲消除。

目標(biāo)說(shuō)話人與背景干擾人聲及噪音

當(dāng)目標(biāo)說(shuō)話人聲和背景干擾人聲的聲紋特征很接近時(shí),此時(shí)對(duì)于特定說(shuō)話人提取算法的挑戰(zhàn)更大,更能考驗(yàn)特定說(shuō)話人提取算法魯棒性。如下樣本中,目標(biāo)說(shuō)話人和背景干擾人聲是兩個(gè)相似的女聲。

目標(biāo)女聲與干擾女聲混合

總結(jié)與展望

上述介紹了火山引擎 RTC 音頻團(tuán)隊(duì)基于深度學(xué)習(xí)在特定說(shuō)話人降噪,回聲消除,多通道語(yǔ)音增強(qiáng)等方向做出的一些方案及效果,未來(lái)場(chǎng)景依然面臨著多個(gè)方向的挑戰(zhàn),如語(yǔ)音降噪如何自適應(yīng)噪音場(chǎng)景,音質(zhì)修復(fù)如何在更廣范圍對(duì)音頻信號(hào)進(jìn)行多類(lèi)型修復(fù)以及怎么樣各類(lèi)終端上運(yùn)行輕量低復(fù)雜度模型,這些挑戰(zhàn)點(diǎn)也將會(huì)是我們后續(xù)重點(diǎn)的研究方向。

關(guān)鍵詞

編輯:HE02
上一篇:安川電機(jī)將在日本北九州新建機(jī)器人工廠    下一篇:最后一頁(yè)