近日,2023第十二屆中國智能產業高峰論壇(CIIS 2023)在江西南昌順利舉行。大會由中國人工智能學會、江西省科學技術廳、南昌市人民政府主辦,南昌市科學技術局、中國工程科技發展戰略江西研究院承辦。本次大會重點關注AI大模型、生成式AI、無人系統、智能制造、數字安全等領域,匯集了來自中國工程院、國際歐亞科學院、國際核能院等多個學術機構的院士進行主題報告演講、專題論壇研討。近200位人工智能領域專家學者同場交流分享,吸引了線上線下超千萬人次觀會。

大會現場
行業的發展離不開信息傳遞,文檔是信息傳遞最常見的載體之一。智能文檔處理技術歷來便是學術界重點關注的領域,多模態大模型可以利用大量的數據進行預訓練,有效解決文檔圖像質量及自然語言處理技術限制問題。基于此,大會期間,中國人工智能學會(CAI)模式識別專委會與合合信息共同承辦了《多模態大模型與文檔圖像智能理解》專題論壇,論壇主席為華南理工大學金連文教授、復旦大學邱錫鵬教授。來自清華大學、華中科技大學、復旦大學、百度、科大訊飛、合合信息等研究機構和企業的技術專家,圍繞行業焦點議題展開探討。

《多模態大模型與文檔圖像智能理解》專題論壇現場
“大模型的出現勢必對行業帶來巨大的影響,文檔圖像的分析、識別、理解與大模型技術間存在互補關系。”合合信息智能技術平臺事業部副總經理、高級工程師丁凱博士在《文檔圖像預訓練模型的探索與思考》分享中提到,在互聯網語料“見底”之日逐漸逼近之時,電子書成為了大模型訓練的新“燃料”,而電子書很多是由文檔圖像組成的,文檔圖像識別分析與智能理解技術可以將大量的文檔圖像轉化為具有豐富格式信息的文本,為大模型提供更豐富更高質量的訓練語料,解決大模型訓練的‘token荒’的問題。

合合信息智能技術平臺事業部副總經理、高級工程師丁凱博士進行《文檔圖像預訓練模型的探索與思考》主題分享
文檔圖像技術已走過百年歷程,但文檔圖像質量退化、文字檢測及版面分析困難、非限定條件文字識別率低、結構化智能理解能力差等問題如今仍是工業化落地中的難題。丁凱認為,文檔圖像處理技術在推動大模型技術發展的同時,大模型的小樣本學習能力、多任務能力、智能涌現能力對于文檔圖像處理問題的解決具有重要的研究價值。
“在已有的學術研究中,文檔圖像專有大模型在更復雜的文檔理解問題上存在天然的短板,而一些多模態大模型已經表現出了從含有表格、圖片等多重元素的文檔中提取關鍵信息進行分析,理解內容的潛力。”丁凱表示,研究人員可以基于現有的領域做更好的融合,開辟新的研究方向。
合合信息-華南理工大學文檔圖像分析識別與理解聯合實驗室也對以下行業前沿問題進行了研究,包括如何將文檔圖像識別分析的各種任務定義為序列預測的形式,通過不同的AI提示詞(prompt)引導模型完成不同的文檔圖像識別分析與理解任務,讓模型更好地支持篇章級的文檔圖像識別分析。
大模型蓬勃生長的背面,大量經過人工、生成式AI篡改合成的圖片被用于散播謠言、經濟詐騙,AI圖像內容安全也成為了文檔大模型發展中亟待解決的痛點。丁凱表示,合合信息智能文檔處理技術覆蓋了圖像預處理、解析識別到AI安全等文檔圖像處理全生命周期,在端到端提升文件處理效率、準確率的同時,有效保障用戶及企業數據安全。
今年8月,合合信息戰勝了來自全球的上千支參賽團隊,獲得了文檔分析與識別國際會議(ICDAR 2023)“文本篡改檢測”賽道冠軍。合合信息技術團隊提出的方案能夠在保持極低誤檢率的同時,準確識別并定位圖片中文本的篡改行為,從而有效保障文本信息的真實性。相關方案此前已在銀行、證券、保險多個場景中應用。此前,合合信息曾獲得ICPR、ICFHR 等十余項文檔圖像處理、文字識別領域國際競賽冠軍。