電(diàn)梯、地庫裏通話不卡頓,騰訊主導新(xīn)一代實時語音編碼行業标準 AVS3P10 即将發布(圖文(wén))

發布日期:2024-06-28首頁(yè) > IT資訊

       騰訊今日宣布,該公(gōng)司主導的新(xīn)一代實時語音編碼行業标準 AVS3P10 完成定稿,即将正式對外發布。

此次 AVS 音頻組 AVS3P10 标準采納了騰訊側方案,以騰訊會議首款自研神經網絡語音編解碼器 Penguins AI 語音引擎為(wèi)原型,可(kě)提升弱網環境下的通話質(zhì)量。

 

騰訊介紹稱,這是全球首個系統性引入人工(gōng)智能(néng)并實現低碼率下高質(zhì)量語音編碼标準,表現達到國(guó)際一流水準。僅需 1/3 的編碼碼率,就能(néng)實現和現有(yǒu)主流标準同等清晰的音質(zhì)。“即使網絡卡如 2G,也能(néng)順暢開會”。

該标準由騰訊提議啓動、推進和維護,經過 AVS 音頻組多(duō)家成員單位共同貢獻。“今後在線(xiàn)上會議、語音通話等實時音頻場景,帶寬要求大幅降低。即使在電(diàn)梯、地庫、隧道等網絡很(hěn)差的環境,也能(néng)實現清晰流暢的語音通話。”

據介紹,在有(yǒu)限的帶寬條件下,想要将聲音高質(zhì)量傳遞到接收方,壓縮原始數據、去除冗餘信息的語音編碼技(jì )術是其中(zhōng)關鍵。然而,基于 EVSOPUS 等現有(yǒu)主流音頻編解碼标準,當碼率降低到 10kbps 以下時,語音質(zhì)量下降明顯,影響用(yòng)戶體(tǐ)驗。

為(wèi)應對該挑戰,騰訊會議天籁實驗室聯合騰訊 AI Lab 自研了騰訊首款神經網絡語音編解碼器 ——Penguins

具(jù)體(tǐ)來說,Penguins AI 與傳統技(jì )術融合,打破傳統香農定律的性能(néng)極限,引入大數據并在可(kě)控算力增量下提供了新(xīn)的性能(néng)上界,從而對下一代通信系統,尤其是信源編碼器部分(fēn),提供了新(xīn)的技(jì )術基礎和方法論。通過 AI 語音信号建模,提取最核心的特征參數編碼,再借助深度學(xué)習網絡,預測并重建語音中(zhōng)的細微結構,最終生成逼真的音頻波形。

多(duō)方測試表明,騰訊提交的 AVS3P10 标準實現了 6kbps 下的高質(zhì)量語音通信,即使在“2G”網絡下也能(néng)實現清晰通話,且主觀質(zhì)量非常接近原始參考信号,媲美國(guó)際主流的 OPUS 标準在 20kbps 的質(zhì)量。同時,主觀質(zhì)量對标傳統編碼的中(zhōng)高碼率情況下,編碼效率提升 200-300%

2021 年起,Penguins 音頻編碼器就在騰訊會議的駕駛模式、弱網模式及 QQ 語音通話等場景中(zhōng)投入規模應用(yòng)。

2023 3 月,騰訊團隊在 AVS 音頻組提議并參與标準制定,即 AVS3P10 實時語音編碼标準。随後,騰訊提交基于 Penguins 的候選技(jì )術;經過 AVS 音頻組交叉驗證後采納。2024 6 月,AVS3P10 實時語音編碼标準正式完成标準化工(gōng)作(zuò),進入公(gōng)示階段。

IT之家注:從 2002 6 月我國(guó)成立 AVS 工(gōng)作(zuò)組開始,十多(duō)年來上千人的團隊努力,我國(guó)自主知識産(chǎn)權的 AVS 應運而生。AVS3 是全球首個已推出的面向 8K 5G 産(chǎn)業應用(yòng)的視頻編碼标準。

AVS 國(guó)際組長(cháng)鄭建铧此前透露AVS 已經啓動 AVS4 的标準制定,并呼籲 AVS 成員單位繼續支持 AVS 下一代标準開發工(gōng)作(zuò),各個廠商(shāng)聯合起來,一起實現技(jì )術标準共同出海,推動全球化部署。

 

 

 

 

轉載自IT之家