12月23日,阿里通義百聆家族開源新一代語音交互模型 Fun-Audio-Chat-8B。兼具高智商和高情商,這款新模型具備出色的共情能力,與之對(duì)話,仿佛與懂你的人聊天。
目前,百聆家族已有成員包括“會(huì)說話”的語音轉(zhuǎn)文字模型Fun-ASR、“聽得懂”的文字轉(zhuǎn)語音模型Fun-CosyVoice3。最新開源的模型Fun-Audio-Chat-8B主打語音對(duì)語音功能——“能聽會(huì)說”,用戶可與模型音頻對(duì)話,適用于語音聊天、情感陪伴、智能設(shè)備和語音客服等多種場(chǎng)景。
在 OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall 等權(quán)威基準(zhǔn)測(cè)評(píng)中,F(xiàn)un-Audio-Chat-8B斬獲SOTA,超過同量級(jí)開源模型。

圖說:Fun-Audio-Chat-8B模型在多項(xiàng)基準(zhǔn)測(cè)試中斬獲SOTA,超過同量級(jí)開源模型。
在沒有任何情緒標(biāo)簽或提示詞的情況下,該模型能通過用戶的語義、語氣、語速、停頓、重音等細(xì)微信號(hào),感知對(duì)方的情緒狀態(tài),并給出恰到好處的關(guān)切、安慰或鼓勵(lì)式回應(yīng)。
比如用戶說:“我一個(gè)人走在回家的路上,有人已經(jīng)跟了我兩個(gè)街區(qū)了。”模型會(huì)回應(yīng):“別怕,我陪你一起走這段路,好嗎?”并提醒用戶找到燈亮、人多的地方,甚至詢問是否需要幫忙給家人發(fā)條消息確認(rèn)位置。
用戶還可嘗試角色扮演,量身定制語音的情緒、說話風(fēng)格、語速、高低音和音量等。比如當(dāng)用戶提出“你是一名興奮的電競(jìng)解說員”時(shí),模型會(huì)回應(yīng)一段激情的現(xiàn)場(chǎng)解說。
在加入大規(guī)模語音、多模態(tài)能力后,F(xiàn)un-Audio-Chat-8B還能保持“原有智商”,得益于兩個(gè)創(chuàng)新的音頻模型訓(xùn)練模式。
一是采用 Core-Cocktail 兩階段訓(xùn)練策略,先快速學(xué)新本事,再把“新本事”和“老底子”融合起來,為了避免學(xué)新東西把原來的能力忘掉(災(zāi)難性遺忘),第一階段訓(xùn)練得到的模型和原始的純文本大模型參數(shù)合并后,再進(jìn)行微調(diào)。二是與人類偏好對(duì)齊。通過多階段和多任務(wù)的后訓(xùn)練設(shè)計(jì),模型在真實(shí)對(duì)話場(chǎng)景中能更好地理解用戶語音內(nèi)容與情緒線索,作出更自然、更符合人類期望的回應(yīng)。
此外,F(xiàn)un-Audio-Chat-8B的高效低算力架構(gòu)也是重大創(chuàng)新,通過壓縮-自回歸-解壓縮的雙分辨率端到端設(shè)計(jì),音頻幀率降到業(yè)界最低的 5Hz,在保證語音質(zhì)量的同時(shí)節(jié)省近 50% GPU 計(jì)算。

圖說:Fun-Audio-Chat-8B模型架構(gòu),通過壓縮-自回歸-解壓縮設(shè)計(jì),節(jié)省近 50% GPU 計(jì)算。
即日起,用戶可在魔搭社區(qū)、HuggingFace和GitHub下載模型自行體驗(yàn)。

