仿佛與懂你的人聊天，通義百聆開源新一代語音交互模型

2025-12-24 13:45:09來源：威易網(wǎng)作者：

12月23日，阿里通義百聆家族開源新一代語音交互模型 Fun-Audio-Chat-8B。兼具高智商和高情商，這款新模型具備出色的共情能力，與之對(duì)話，仿佛與懂你的人聊天。

目前，百聆家族已有成員包括“會(huì)說話”的語音轉(zhuǎn)文字模型Fun-ASR、“聽得懂”的文字轉(zhuǎn)語音模型Fun-CosyVoice3。最新開源的模型Fun-Audio-Chat-8B主打語音對(duì)語音功能——“能聽會(huì)說”，用戶可與模型音頻對(duì)話，適用于語音聊天、情感陪伴、智能設(shè)備和語音客服等多種場(chǎng)景。

在 OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall 等權(quán)威基準(zhǔn)測(cè)評(píng)中，F(xiàn)un-Audio-Chat-8B斬獲SOTA，超過同量級(jí)開源模型。

圖說：Fun-Audio-Chat-8B模型在多項(xiàng)基準(zhǔn)測(cè)試中斬獲SOTA，超過同量級(jí)開源模型。

在沒有任何情緒標(biāo)簽或提示詞的情況下，該模型能通過用戶的語義、語氣、語速、停頓、重音等細(xì)微信號(hào)，感知對(duì)方的情緒狀態(tài)，并給出恰到好處的關(guān)切、安慰或鼓勵(lì)式回應(yīng)。

比如用戶說：“我一個(gè)人走在回家的路上，有人已經(jīng)跟了我兩個(gè)街區(qū)了。”模型會(huì)回應(yīng)：“別怕，我陪你一起走這段路，好嗎？”并提醒用戶找到燈亮、人多的地方，甚至詢問是否需要幫忙給家人發(fā)條消息確認(rèn)位置。

用戶還可嘗試角色扮演，量身定制語音的情緒、說話風(fēng)格、語速、高低音和音量等。比如當(dāng)用戶提出“你是一名興奮的電競(jìng)解說員”時(shí)，模型會(huì)回應(yīng)一段激情的現(xiàn)場(chǎng)解說。

在加入大規(guī)模語音、多模態(tài)能力后，F(xiàn)un-Audio-Chat-8B還能保持“原有智商”，得益于兩個(gè)創(chuàng)新的音頻模型訓(xùn)練模式。

一是采用 Core-Cocktail 兩階段訓(xùn)練策略，先快速學(xué)新本事，再把“新本事”和“老底子”融合起來，為了避免學(xué)新東西把原來的能力忘掉（災(zāi)難性遺忘），第一階段訓(xùn)練得到的模型和原始的純文本大模型參數(shù)合并后，再進(jìn)行微調(diào)。二是與人類偏好對(duì)齊。通過多階段和多任務(wù)的后訓(xùn)練設(shè)計(jì)，模型在真實(shí)對(duì)話場(chǎng)景中能更好地理解用戶語音內(nèi)容與情緒線索，作出更自然、更符合人類期望的回應(yīng)。

此外，F(xiàn)un-Audio-Chat-8B的高效低算力架構(gòu)也是重大創(chuàng)新，通過壓縮-自回歸-解壓縮的雙分辨率端到端設(shè)計(jì)，音頻幀率降到業(yè)界最低的 5Hz，在保證語音質(zhì)量的同時(shí)節(jié)省近 50% GPU 計(jì)算。

圖說：Fun-Audio-Chat-8B模型架構(gòu)，通過壓縮-自回歸-解壓縮設(shè)計(jì)，節(jié)省近 50% GPU 計(jì)算。

即日起，用戶可在魔搭社區(qū)、HuggingFace和GitHub下載模型自行體驗(yàn)。

關(guān)鍵詞：通義百聆語音交互

成人午夜激情影院,小视频免费在线观看,国产精品夜夜嗨,欧美日韩精品一区二区在线播放

仿佛與懂你的人聊天，通義百聆開源新一代語音交互模型

相關(guān)閱讀: