金山辦公亮相VALSE 2022 破解複雜場景下表格還原技術難題

8月22日-24日,由中國人工智能學會主辦的視覺與學習青年學者研討會(VALSE 2022)在天津國家會展中心舉辦。金山辦公受邀參會,與國內頂尖學者共話計算機視覺與機器學習前沿技術成果。

如何將不可編輯的表格重新變成便於複製粘貼和編輯的電子文檔,已成為近些年學術界和工業界共同的研究熱門和技術難題。在「可解釋的深度學習算法與視覺應用」分論壇上,金山辦公技術總監、CV團隊負責人熊龍飛發表《複雜場景下的表格還原》演講,展示了公司近年來在該領域取得的突破性進展。

熊龍飛指出,標準PDF里的表格,或者掃描規整、清晰的表格相對容易識別,很多轉化引擎都支持該類表格的轉化還原。但對於更加複雜場景下的表格,比如,嚴重變形、有複雜排版、朝向隨機、像素模糊、有印章或其他背景圖案干擾、存在嵌套關係、甚至沒有表格線的表格文件,目前市面上大多數產品的識別轉化效果都差強人意。

近年來,金山辦公在以CV技術為支撐的OCR識別、表格識別領域已達到業界領先水平。對複雜場景下的表格還原技術難題,金山辦公研發了一套識別系統,通過多種自研算法,在密集文本、不規則表格或無框表格、帶印章、簽名等干擾的文檔元素上取得了不錯的識別和轉換效果。

除了滿足基本的文檔內容識別,金山辦公通過加入深度學習能力,對文字屬性做了一系列算法優化,能夠更精準地還原文檔風格,對諸如顏色、字體、加粗、斜體和下劃線等格式都能進行精細識別,顯著提高文檔還原度,為用戶節省大量後期手動調整的時間和精力。

據介紹,該系統由近二十個深度學習模型、一百多個算法模塊、50多萬行代碼構成,擁有複雜的功能模塊和調度流程,支持各類圖片輸入,無論是掃描件、網上下載的圖片,亦或是手機截圖、隨手拍的照片等均可進行轉化識別。雲端和本地兩端均可部署,支持輸出xlsx表格、word文檔、html等多種格式的文件。

演講現場,熊龍飛通過一系列樣張展示了該系統的識別能力,對於質量模糊、帶印章的表格圖片、甚至是被揉成一團後展開的實體表格,通過系統識別後都達到了極高的還原度。

「該系統可以在⽇常辦公、財務表格轉化、政府⼯作等領域節約⼤量人工編輯所產生的時間成本,極大地提高辦公效率。」熊龍飛表示。

金山辦公在過去34年堅持深耕辦公賽道,秉持技術立業,不斷打磨技術和產品服務。公司承擔多項國家級重大科研項目研發任務,包括「核高基」科技重大專項、電子發展基金、「863」高技術研究發展計劃等,並先後兩次榮獲國家科技進步二等獎。

公司在近年持續加大AI領域的研發投入,並把OCR、版面的識別和理解列為重點任務。早在2018年,公司就成立了CV團隊,聚焦WPS等產品上圖像及視覺項目的研發與應用,通過CV能力賦能各類辦公場景,目前已在OCR文字識別、文檔矯正、智能摳圖、字體識別、表格還原、版式還原、PDF編輯等二十多個功能上線相關產品和服務。

目前,金山辦公為來自全球220多個國家和地區的用戶提供辦公服務。截至2022年6月,公司主要產品月度活躍設備數為5.7億,其中WPS office PC版月度活躍設備數2.32億,移動版月度活躍設備數3.34億。

VALSE 2022由中國圖象圖形學學會、中國人工智能學會主辦,天津大學承辦,天津工業大學天津科技大學和天津市人工智能學會等單位協辦,旨在為計算機視覺、圖像處理、模式識別與機器學習研究領域內的中國青年學者提供一個深層次學術交流的舞台。截至目前,VALSE已成功舉辦十一屆,是中國內最大規模的機器視覺學術盛會。