首個全面梳理語音大模型發展脈絡的權威綜述,入選 ACL 2025 主會
由香港中文大學團隊撰寫的語音語言模型綜述論文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主會議接收! 這是該領域首個全面系統的綜述,為語音 AI 的未來發展指明瞭方向。
ArXiv 連結:https://arxiv.org/abs/2410.03751
GitHub 連結:https://github.com/dreamtheater123/Awesome-SpeechLM-Survey
為什麼語音大模型是 AI 的下一個風口?
想像一下,如果 AI 能夠像人類一樣自然地進行語音對話,不再需要傳統的「語音轉文字(ASR)- 文本大模型處理(LLM)- 文字轉語音(TTS)」的繁瑣流程,而是直接理解和生成語音,那將是怎樣的體驗? 這就是語音大模型 (語音語言模型,SpeechLM)要解決的核心問題。
傳統的語音交互系統存在三大痛點:資訊丟失、延遲嚴重、錯誤累積。 當語音轉換為文字時,音調、語氣、情感等副語言資訊完全丟失; 多個模組串聯導致回應延遲明顯; 每個環節的錯誤會層層累積,最終影響整體效果。
SpeechLM 的出現徹底改變了這一局面。 它能夠端到端地處理語音,既保留了語音中的豐富資訊,又大幅降低了延遲,為真正自然的人機語音交互鋪平了道路。
技術架構:三大核心元件構建語音智慧
本論文深入剖析了 SpeechLM 的技術架構,發現其由三個關鍵元件構成:語音分詞器、語言模型和聲碼器。
語音分詞器(Speech Tokenizer)負責將連續的音訊信號轉換為離散或連續的 token 表示。 根據建模目標的不同,可以分為語義理解型、聲學生成型和混合型三類。 語義理解型專注於提取語音的語義內容,聲學生成型則重點保留音訊的聲學特徵,而混合型試圖兼顧兩者的優勢。
語言模型(Language Model)是整個系統的核心,主要採用基於 Transformer 的自回歸架構。 通過擴展詞彙表實現同時處理文本和語音 token,實現真正的多模態建模能力。
聲碼器(Token-to-wav Synthesizer,Vocoder)則將語言模型生成的 token 轉換回可聽的音訊波形,完成從抽象表示到具體語音的最後一步轉換。
訓練策略:從預訓練到指令微調的完整流程
訓練一個高品質的 SpeechLM 需要精心設計的訓練策略。 我們的綜述詳細梳理了當前主流的訓練方法,包括三個關鍵階段。
預訓練階段是基礎,可以選擇冷啟動或繼續預訓練兩種方式。 冷啟動從零開始訓練,而繼續預訓練則基於已有的文本語言模型進行適配,後者通常能獲得更好的效果。 關鍵在於如何有效對齊文本和語音的表示空間,使模型能夠充分利用兩種模態的共同資訊與互補資訊。
指令微調階段讓模型學會遵循各種指令執行不同任務。 研究者們通過構建大規模的指令跟隨數據集,讓 SpeechLM 具備了處理多樣化語音任務的能力。
后對齊階段則通過人類反饋強化學習等技術,進一步優化模型的輸出品質和安全性,確保生成的語音既自然又符合人類偏好。
互動範式:實現真正自然的語音對話
語音交互的未來不僅在於理解和生成,更在於如何實現真正自然的對話體驗。 傳統的語音交互採用「你說完我再說」的模式,但真實對話中人們經常會打斷對方或同時說話。 為了讓 AI 具備這種自然對話能力,研究者們正在開發具有即時交互能力的 SpeechLM。
關鍵突破在於全雙工建模技術,它包括兩個核心特性:用戶中斷能力,即模型可以被使用者打斷並適當回應; 同時回應能力,即模型能夠在處理輸入的同時生成輸出。 通過流式處理和全雙工架構,SpeechLM 能夠支援真正的雙向同時通信,讓人機交互變得更加自然流暢。
應用場景:重新定義人機交互的邊界
SpeechLM 的應用潛力遠超我們的想像。 在語義相關應用方面,它能夠進行自然的語音對話、語音翻譯、自動語音辨識、關鍵詞檢測等任務。 更重要的是,這些任務都可以在統一的框架下完成,無需針對每個任務訓練專門的模型。
在說話人相關應用中,SpeechLM 展現出了強大的說話人識別、驗證和分離能力,甚至可以根據指令生成特定音色的語音。 這為個人化語音助手和多人對話系統開闢了新的可能性。
最令人興奮的是副語言學應用,SpeechLM 能夠理解和生成帶有特定情感、語調和風格的語音。 它不僅能識別說話者的情緒狀態,還能根據指令生成相應情感色彩的語音回應,讓人機交互變得更加生動自然。
評估體系:多維度衡量模型性能
如何科學評估 SpeechLM 的性能是一個重要課題。 我們的論文系統梳理了當前的評估方法,包括自動評估和人工評估兩大類。
自動評估涵蓋了表示品質、語言學能力、副語言學特徵、生成品質和多樣性、即時交互能力以及下游任務性能等多個維度。 每個維度都有相應的指標和基準測試,為模型比較提供了客觀標準。
人工評估則主要通過平均意見分數(MOS)等主觀指標,從人類感知的角度評估語音的自然度、韻律品質和音色相似度等特徵。
挑戰與未來:通往通用語音智慧的道路
儘管 SpeechLM 取得了顯著進展,但仍面臨諸多挑戰。 元件選擇的最優化、端到端訓練、即時語音生成、安全風險防控以及稀有語言支持等問題都需要進一步研究。
特別值得關注的是安全性問題。 SpeechLM 可能生成有害內容或洩露隱私資訊,如何建立有效的安全防護機制是當務之急。 同時,如何讓 SpeechLM 更好地服務於資源稀缺的語言和方言,也是推動技術普惠的重要方向。
結語:開啟語音 AI 的新紀元
這篇即將在 ACL 2025 主會議上發表的綜述論文,不僅是對 SpeechLM 領域的全面梳理,更是對未來發展方向的深入思考。 我們相信,隨著技術的不斷進步,SpeechLM 將徹底改變人機交互的方式,開啟語音 AI 的新紀元。
讓我們一起期待這個激動人心的未來,在那裡,AI 不僅能聽懂我們說什麼,更能理解我們怎麼說,並以同樣自然的方式與我們對話。 這不僅是技術的突破,更是人類與 AI 關係的根本性變革。
本文第一作者:崔文謙,香港中文大學博士生,致力於語音大模型,多模態大模型,AI 音樂生成等方向的研究。
本文來自微信公眾號 “機器之心”, 作者:崔文謙,36 氪經授權發佈。