湖(hú)北中(zhōng)網科(kē)技(jì )有(yǒu)限公(gōng)司

騰訊今日宣布，該公(gōng)司主導的新(xīn)一代實時語音編碼行業标準 AVS3P10 完成定稿，即将正式對外發布。

此次 AVS 音頻組 AVS3P10 标準采納了騰訊側方案，以騰訊會議首款自研神經網絡語音編解碼器 Penguins AI 語音引擎為(wèi)原型，可(kě)提升弱網環境下的通話質(zhì)量。

騰訊介紹稱，這是全球首個系統性引入人工(gōng)智能(néng)并實現低碼率下高質(zhì)量語音編碼标準，表現達到國(guó)際一流水準。僅需 1/3 的編碼碼率，就能(néng)實現和現有(yǒu)主流标準同等清晰的音質(zhì)。“即使網絡卡如 2G，也能(néng)順暢開會”。

該标準由騰訊提議啓動、推進和維護，經過 AVS 音頻組多(duō)家成員單位共同貢獻。“今後在線(xiàn)上會議、語音通話等實時音頻場景，帶寬要求大幅降低。即使在電(diàn)梯、地庫、隧道等網絡很(hěn)差的環境，也能(néng)實現清晰流暢的語音通話。”

據介紹，在有(yǒu)限的帶寬條件下，想要将聲音高質(zhì)量傳遞到接收方，壓縮原始數據、去除冗餘信息的語音編碼技(jì )術是其中(zhōng)關鍵。然而，基于 EVS、OPUS 等現有(yǒu)主流音頻編解碼标準，當碼率降低到 10kbps 以下時，語音質(zhì)量下降明顯，影響用(yòng)戶體(tǐ)驗。

為(wèi)應對該挑戰，騰訊會議天籁實驗室聯合騰訊 AI Lab 自研了騰訊首款神經網絡語音編解碼器 ——Penguins。

具(jù)體(tǐ)來說，Penguins 将 AI 與傳統技(jì )術融合，打破傳統香農定律的性能(néng)極限，引入大數據并在可(kě)控算力增量下提供了新(xīn)的性能(néng)上界，從而對下一代通信系統，尤其是信源編碼器部分(fēn)，提供了新(xīn)的技(jì )術基礎和方法論。通過 AI 語音信号建模，提取最核心的特征參數編碼，再借助深度學(xué)習網絡，預測并重建語音中(zhōng)的細微結構，最終生成逼真的音頻波形。

多(duō)方測試表明，騰訊提交的 AVS3P10 标準實現了 6kbps 下的高質(zhì)量語音通信，即使在“2G”網絡下也能(néng)實現清晰通話，且主觀質(zhì)量非常接近原始參考信号，媲美國(guó)際主流的 OPUS 标準在 20kbps 的質(zhì)量。同時，主觀質(zhì)量對标傳統編碼的中(zhōng)高碼率情況下，編碼效率提升 200-300%。

2021 年起，Penguins 音頻編碼器就在騰訊會議的駕駛模式、弱網模式及 QQ 語音通話等場景中(zhōng)投入規模應用(yòng)。

2023 年 3 月，騰訊團隊在 AVS 音頻組提議并參與标準制定，即 AVS3P10 實時語音編碼标準。随後，騰訊提交基于 Penguins 的候選技(jì )術；經過 AVS 音頻組交叉驗證後采納。2024 年 6 月，AVS3P10 實時語音編碼标準正式完成标準化工(gōng)作(zuò)，進入公(gōng)示階段。

IT之家注：從 2002 年 6 月我國(guó)成立 AVS 工(gōng)作(zuò)組開始，十多(duō)年來上千人的團隊努力，我國(guó)自主知識産(chǎn)權的 AVS 應運而生。AVS3 是全球首個已推出的面向 8K 及 5G 産(chǎn)業應用(yòng)的視頻編碼标準。

AVS 國(guó)際組長(cháng)鄭建铧此前透露，AVS 已經啓動 AVS4 的标準制定，并呼籲 AVS 成員單位繼續支持 AVS 下一代标準開發工(gōng)作(zuò)，各個廠商(shāng)聯合起來，一起實現技(jì )術标準共同出海，推動全球化部署。

轉載自IT之家

電(diàn)梯、地庫裏通話不卡頓，騰訊主導新(xīn)一代實時語音編碼行業标準 AVS3P10 即将發布(圖文(wén))