什麼是光學字符識別?
光學字符識別(OCR)是將pdf,Word, Excel或者文本圖像轉換為機器編碼文本(機構化數據)的一種AI工具。
有了OCR,大量基於紙張的、跨多種格式,多種形式的文檔都可以數字化成機器可讀的文本,這不僅使存儲變得更容易,而且方便在各個系統當中錄入數據,進行調用和分析。
試想一下,一個城市或政府,大學,醫院地下室里有多少裝滿文件的檔案箱。
OCR是如何工作的?
不同的字體和書寫單個字符的方法使這個問題成為一個挑戰。在選擇OCR算法之前,必須對圖像進行預處理,使圖像可以被“讀取”。
l 預處理
OCR軟件通常對圖像進行“預處理”以增加識別的機會。
技術包括:
1. De-skew(矯正)
如果文檔在掃描時沒有正確對齊,可能需要順時針或逆時針傾斜幾度,以創建完全水平或垂直的文本行。
2. 去除雜點
去除雜點點,平滑邊緣
3. 二制化
將圖像轉換為黑白(稱為“二值圖像”,因為有兩種顏色)。二值化任務是作為一種簡單而準確的方法從背景中區分文本。
4.消除線
清理非符號框和線條。
5. 布局分析或“分區”
將列、段落、標題等標識為塊。在多欄布局和表格中特別有用。
6. 行字檢測
建立單詞和字符的形狀基線,根據需要劃分單詞。
7. 腳本識別
在多語言文檔中,腳本可能在單詞級別進行轉換,因此在利用相關OCR來管理特定腳本之前,腳本標識是至關重要的。
8. 字符隔離或“分段”
對於OCR字符,應將圖像鏈接的各種字符進行分割,將單個字符分割為若干基於偽影的片段進行鏈接。
9. 規格化
規格化縱橫比和比例尺。
l 特徵提取
在OCR中提取特徵主要有兩種方法:
1, 特徵檢測算法通過評估字符的線條和筆畫來定義字符。
2, 模式識別的工作原理是識別整個字符。
我們可以通過搜索中間有黑色像素的白色像素行來識別一行文本。類似地,我們可以識別字符在哪裡開始哪裡結束。
下圖分別展示了這些方法的可視化效果:
(方法一: 特徵檢測)
(方法2:對一行文本進行模式識別)
(方法2:單一字符的模式識別)
接下來,我們將字符的圖像轉換為一個二進制矩陣,其中白色像素為0,黑色像素為1,如下圖所示:
(二進制矩陣的樣本)
然後,利用距離公式,我們可以找到從矩陣的中心到最遠的距離1。
(距離公式)
然後我們創建一個圓形的半徑,並將其分割成更細顆粒的部分。
在這個階段,算法將每個分段與表示不同字體字符的矩陣數據庫進行比較,以確定統計上最常見的字符。
通過對每一行和每一個字符進行這樣的處理,它使印刷體或者其他非結構化數據源很容易形成數字世界。
(將每個分段與矩陣數據庫進行比較)
l 後處理
如果有一個詞彙表(文檔中允許使用的單詞列表)的限制,則可以提高OCR的準確性。譬如限制是一個特定領域的專業的詞彙。
為了提高準確性,網上有免費的OCR圖書館。
輸出流可以是單個字符串或字符文件,但更高級的OCR系統保留原始頁面結構,例如,創建包含原始圖像頁面和可搜索文本圖像的PDF。
l 誤差修正
“近鄰分析”可以利用共現的頻率來糾正錯誤,方法是注意到一些單詞在一起出現過。例如,“Washington, D.C.”在英語中比“Washington DOC”更常見。
l 語法
語法也可以幫助確定被掃描的數據,例如,一個單詞可能是動詞或名詞,提供更高的準確性。
OCR的用例
OCR引擎已經發展成一系列特定領域的OCR應用,包括收據、發票、
支票和法律文件
l 商業文件的數據輸入,例如支票、護照、發票、銀行對賬單和收據。
l 車牌自動識別
l 在機場,護照識別和信息提取
l 自動保險文檔密鑰信息提取
l 提取名片信息到聯繫人列表中
l 對大型打印文件進行數字版本的處理,例如圖書掃描
l 使印刷文件的電子圖像可檢索,如谷歌書籍
l 實時轉換手寫來控制計算機(筆計算)
按行業分類的OCR用例
l 銀行
Ø 銀行業和保險、證券等其他經濟部門一樣,都是OCR的重要消費者。
Ø OCR最常見的用途是妥善管理支票:
Ø 手寫支票被掃描
Ø 內容被轉換成數字文本
Ø 驗證簽名
Ø 實時清除檢查
儘管打印支票幾乎需要100%的準確性(只有簽名驗證需要匹配預先存在的數據庫),但手寫完全識別仍有很長的路要走。
然而,隨着深度學習人工智能方法應用於OCR手寫,它可能並不像看起來那樣不可解決。
從付款人到銀行再到收款人,減少支票清算處理時間對每個人來說都是一種優勢。
l 法律
很少有行業能產生像法律行業那樣多的文書工作,因此OCR在這裡有多種應用。
使用最簡單的OCR閱讀器可以對所有打印文件進行數字化、存儲、數據庫和搜索:宣誓書、判決、文件、聲明、遺囑等。
這種技術也適用於中文、阿拉伯語和其他文字的記錄。
對於一個嚴重依賴歷史的行業來說,快速獲取數百萬過去案件中的法律文件無疑是一個優勢。
l 醫療保健
另一個與OCR合作良好的行業是醫療保健。整個醫療歷史可以被掃描並存儲在電腦上:醫療報告、x光片、疾病記錄、治療或診斷、測試、醫院記錄、保險支付等。這些都可以在一個地方訪問,並且可以搜索。
事實上,整個醫院的記錄都是數字化存儲的,這對流行病學和後勤(維持適當的藥店、設備和其他消費品)也有很大的好處。
(OCR對於藥品行業應用)
l 供應鏈
在食品、飲料、製藥和化妝品行業,每一環節的質量控制對於遵守安全和防偽合規至關重要。
物品必須在任何指定的時刻位於供應鏈控制內,並有其來源和位置的信息。
雖然產品跟蹤通常被認為是一種條形碼應用,但OCR允許您閱讀批號、有效期和序列號,以跟蹤產品在包裝周期的所有階段——從包裝標籤到碼垛操作。
條形碼和OCR經常一起使用,以最大限度地提高信息收集的準確性。
當然還有國際貨代流程中的托書,箱單,提單,發票,SI,衛生證,到貨通知,申報要素,VGM,報關單,簽收單,銀行水單等等文件,都以非機構化數據出現,都可以通過OCR識別並且結構化。
OCR的好處
功能強大:
您可以以doc,.rtf,.txt(最簡單的),pdf等保存您的文件,OCR幫助轉換為可讀的文本。這些文件可以很容易地使用任何系統進行搜索和利用。
可編輯性:
你可能想修改一份幾年前寫的舊合同,或者修改一份舊遺囑。使用OCR將文件數碼化後,您可以輕鬆地用文字處理器編輯它,而不必鍵入整個文件。
可訪問性:
OCR掃描的文件在一個公共數據庫上可以訪問,這對銀行來說尤其有用,因為銀行可以隨時隨地查看客戶以前的信用記錄。
另一個用途是讓政府檔案公開,這樣你的土地和財產所有權記錄或你祖父的出生證明可以在任何地方立即找到。
可存儲性:
數字化將存儲所需的空間從整個房間(如果不是“房間”)減少到服務器上的字節,提高生產率,節約空間。
備份:
與保留昂貴的紙質複本相比,數字備份可以製作得很便宜,而且可能是無限的。
可譯性:
現代OCR可以管理大量的語言,從阿拉伯語到印度語再到漢語。這意味着一種語言的論文可以被搜索、數字化和翻譯成任何其他語言。因此,我們幾乎可以消除對專業翻譯的需求。
OCR將如何幫助您的業務
OCR作為數字化的一種手段有幾個優勢。在商業中,經常有大量的數據和文件,無論是關於合同、運單、政府表格、許可證、證書、價目表、目錄等。
數字化後,你可以將它們與其他幾個數字文檔進行比較,因此,通過比較文檔,你可以輕鬆地獲得最優惠的價格、服務、條款和條件等。
通過使用OCR,您可以檢查與您簽署的合同的原始條款和條件的差異。同樣,支票也可以核對數量,發票也可以比較,等等。
此外,通過數字化文檔,您可以訪問它們進行最新的分析,提示您如何改進,避稅,真實財務狀況。
這些其實就是數字化的優勢,OCR可能是數字化轉型的一個關鍵步驟。
Thanks: Forough Karandish
編輯:朱亞潑
作者:曾志宏,北科大畢業,新加坡國立大學MBA,曾服務於GE,Rolls--Royce,JCI,Ariba等國際性企業,上海趨研科技聯合創始人。