
圖說:中國圖象圖形學(xué)學(xué)會(CSIG)常務(wù)理事、華南理工大學(xué)教授金連文致辭
如同人類需要同時調(diào)用視覺、聽覺、觸覺等多感官來全面地理解外部世界,大模型也需要綜合處理文字、圖片、表格等文本信息后做出判斷。“實戰(zhàn)”應(yīng)用標(biāo)準對大模型的多模態(tài)內(nèi)容深度整合能力提出了新的要求,語義割裂、場景理解局限、決策失誤等常見的模型缺陷制約了其在行業(yè)中的應(yīng)用發(fā)展。合合信息在論壇期間推出“多模態(tài)文本智能技術(shù)”方案,該方案可通過文本相關(guān)空間位置理解深層語義邏輯,實現(xiàn)對多模態(tài)信息的“立體化綜合化理解”,賦予模型真正的文本“閱讀理解”能力。
文本智能技術(shù)助力解決多模態(tài)AI應(yīng)用難題
多模態(tài)指利用多種不同形式或感知渠道的信息進行表達、交流和理解的方式,數(shù)據(jù)模態(tài)包括文本、圖像、音頻、視頻等。2025年Gartner人工智能技術(shù)成熟度曲線顯示,多模態(tài)AI將在未來五年成為各行業(yè)提升所有應(yīng)用和軟件產(chǎn)品功能的核心技術(shù)。圍繞多模態(tài)大模型性能優(yōu)化及行業(yè)應(yīng)用等問題,論壇嘉賓開展了一場深刻的討論。
為了助力大模型實現(xiàn)跨越模態(tài)的推理能力,哈爾濱工業(yè)大學(xué)計算學(xué)部長聘教授、博士生導(dǎo)師車萬翔重點分享了“多模態(tài)思維鏈”技術(shù),該技術(shù)將推理邏輯分解為一系列可解釋的跨模態(tài)推理步驟,最終生成更為精準和可靠的結(jié)論。除了幫助大模型理清邏輯,解決“胡編亂造”問題也是提升AI能力的重要方向。南開大學(xué)教授周宇介紹了一種系統(tǒng)化的OCR幻覺緩解方案,為多模態(tài)大模型的可視文本感知能力提升提供了有效路徑。

圖說:哈爾濱工業(yè)大學(xué)計算學(xué)部長聘教授、博士生導(dǎo)師車萬翔教授進行主題分享

圖說:南開大學(xué)教授周宇進行主題分享
真實的應(yīng)用場景是技術(shù)不斷迭代更新的動力。論壇現(xiàn)場,合合信息圖像算法研發(fā)總監(jiān)郭豐俊重點分享了文本智能技術(shù)的創(chuàng)新應(yīng)用,幫助用戶解決復(fù)雜場景下的文檔圖像問題。小紅書hi lab團隊算法工程師燕青結(jié)合行業(yè)實踐,分享了一款基于單視覺語言模型的多語言文檔布局解析工具“dots.ocr”。

圖說:合合信息圖像算法研發(fā)總監(jiān)郭豐俊進行主題分享

圖說:小紅書hi lab團隊算法工程師燕青進行主題分享
除了商業(yè)應(yīng)用,在文保領(lǐng)域,多模態(tài)大模型也發(fā)揮出了巨大價值。華中科技大學(xué)教授劉禹良在主題演講中介紹了首個覆蓋甲骨文專家破譯全流程的輔助考釋框架AlphaOracle,通過人類工作流啟發(fā)的音形義理破譯流程,實現(xiàn)字形分析、拓片用法總結(jié)和傳世文獻做證的思路,成功在“勞”等字的輔助破譯上取得突破。

圖說:華中科技大學(xué)教授劉禹良進行主題分享
多模態(tài)文本智能技術(shù)構(gòu)建“感知-認知-決策”技術(shù)新范式
從文字、圖像到視頻,無論模態(tài)如何演變,其所承載的文本信息始終是AI理解世界的基座。實現(xiàn)具備自主感知、認知與決策能力的通用人工智能(AGI),首要前提是讓機器充分理解作為知識載體的“文本”。基于此,合合信息推出了“多模態(tài)文本智能技術(shù)”方案,將技術(shù)處理對象從傳統(tǒng)的文檔(如PDF、Word等格式文件)延伸至多種承載文本信息的媒介,無論是論文、財報還是視頻、自然場景,都能成為系統(tǒng)的理解對象。
從文字、圖像到視頻,無論模態(tài)如何演變,其所承載的文本信息始終是AI理解世界的基座。實現(xiàn)具備自主感知、認知與決策能力的通用人工智能(AGI),首要前提是讓機器充分理解作為知識載體的“文本”。基于此,合合信息推出了“多模態(tài)文本智能技術(shù)”方案,將技術(shù)處理對象從傳統(tǒng)的文檔(如PDF、Word等格式文件)延伸至多種承載文本信息的媒介,無論是論文、財報還是視頻、自然場景,都能成為系統(tǒng)的理解對象。
在傳統(tǒng)的文檔處理技術(shù)中,“如何準確地提取信息”是重點關(guān)注方向。然而在真實業(yè)務(wù)場景中,信息往往以多模態(tài)組合形態(tài)存在,例如財報的數(shù)據(jù)需對照表格驗證,國家標(biāo)準文件中的插圖依賴圖例說明。為了解決多模態(tài)信息的協(xié)同解讀需求,方案建立了從復(fù)雜場景文本感知到深層語義理解的技術(shù)閉環(huán),讓AI不僅能夠“看清”文本,更能夠理解其布局關(guān)聯(lián),解決不同模態(tài)間的信息割裂問題。
目前,“多模態(tài)文本智能技術(shù)”方案已將文本智能認知程度從語義理解拓展到類人推理及自主機器決策,形成了從感知到認知再到?jīng)Q策的技術(shù)實現(xiàn)路徑。相較于傳統(tǒng)的文檔解析、識別系統(tǒng),該方案讓系統(tǒng)具備了更接近人類判斷邏輯的自主決策能力,在完成對多模態(tài)信息的感知和理解后,能夠根據(jù)用戶意圖,做出正確的決策。
隨著多模態(tài)大模型融入產(chǎn)業(yè)進程,行業(yè)對AI系統(tǒng)的需求正從“功能實現(xiàn)”向“業(yè)務(wù)賦能”深化。合合信息“多模態(tài)文本智能技術(shù)”方案旨在推動AI系統(tǒng)從輔助工具進化為具備自主決策能力的業(yè)務(wù)伙伴,提升其在復(fù)雜場景中展現(xiàn)出的問題分析、決策思維及端到端解決問題的能力。方案已在金融、醫(yī)藥、教育等專業(yè)領(lǐng)域開展應(yīng)用,通過對復(fù)雜文本的精準感知、綜合理解和可靠決策,實現(xiàn)對業(yè)務(wù)流程的智能重構(gòu)。

