OCR（光學字符識別）及其應用

2021年09月21日16:43:14 科技 1692

什麼是光學字符識別?

光學字符識別(OCR)是將pdf，Word, Excel或者文本圖像轉換為機器編碼文本（機構化數據）的一種AI工具。

有了OCR，大量基於紙張的、跨多種格式，多種形式的文檔都可以數字化成機器可讀的文本，這不僅使存儲變得更容易，而且方便在各個系統當中錄入數據，進行調用和分析。

試想一下，一個城市或政府，大學，醫院地下室里有多少裝滿文件的檔案箱。

OCR是如何工作的?

不同的字體和書寫單個字符的方法使這個問題成為一個挑戰。在選擇OCR算法之前，必須對圖像進行預處理，使圖像可以被“讀取”。

l 預處理

OCR軟件通常對圖像進行“預處理”以增加識別的機會。

技術包括:

1. De-skew（矯正）

如果文檔在掃描時沒有正確對齊，可能需要順時針或逆時針傾斜幾度，以創建完全水平或垂直的文本行。

2. 去除雜點

去除雜點點，平滑邊緣

3. 二制化

將圖像轉換為黑白(稱為“二值圖像”，因為有兩種顏色)。二值化任務是作為一種簡單而準確的方法從背景中區分文本。

4.消除線

清理非符號框和線條。

5. 布局分析或“分區”

將列、段落、標題等標識為塊。在多欄布局和表格中特別有用。

6. 行字檢測

建立單詞和字符的形狀基線，根據需要劃分單詞。

7. 腳本識別

在多語言文檔中，腳本可能在單詞級別進行轉換，因此在利用相關OCR來管理特定腳本之前，腳本標識是至關重要的。

8. 字符隔離或“分段”

對於OCR字符，應將圖像鏈接的各種字符進行分割，將單個字符分割為若干基於偽影的片段進行鏈接。

9. 規格化

規格化縱橫比和比例尺。

l 特徵提取

在OCR中提取特徵主要有兩種方法:

1，特徵檢測算法通過評估字符的線條和筆畫來定義字符。

2，模式識別的工作原理是識別整個字符。

我們可以通過搜索中間有黑色像素的白色像素行來識別一行文本。類似地，我們可以識別字符在哪裡開始哪裡結束。

下圖分別展示了這些方法的可視化效果:

（方法一: 特徵檢測）

（方法2：對一行文本進行模式識別）

（方法2：單一字符的模式識別）

接下來，我們將字符的圖像轉換為一個二進制矩陣，其中白色像素為0，黑色像素為1，如下圖所示:

（二進制矩陣的樣本）

然後，利用距離公式，我們可以找到從矩陣的中心到最遠的距離1。

（距離公式）

然後我們創建一個圓形的半徑，並將其分割成更細顆粒的部分。

在這個階段，算法將每個分段與表示不同字體字符的矩陣數據庫進行比較，以確定統計上最常見的字符。

通過對每一行和每一個字符進行這樣的處理，它使印刷體或者其他非結構化數據源很容易形成數字世界。

（將每個分段與矩陣數據庫進行比較）

l 後處理

如果有一個詞彙表(文檔中允許使用的單詞列表)的限制，則可以提高OCR的準確性。譬如限制是一個特定領域的專業的詞彙。

為了提高準確性，網上有免費的OCR圖書館。

輸出流可以是單個字符串或字符文件，但更高級的OCR系統保留原始頁面結構，例如，創建包含原始圖像頁面和可搜索文本圖像的PDF。

l 誤差修正

“近鄰分析”可以利用共現的頻率來糾正錯誤，方法是注意到一些單詞在一起出現過。例如，“Washington, D.C.”在英語中比“Washington DOC”更常見。

l 語法

語法也可以幫助確定被掃描的數據，例如，一個單詞可能是動詞或名詞，提供更高的準確性。

OCR的用例

OCR引擎已經發展成一系列特定領域的OCR應用，包括收據、發票、

支票和法律文件

l 商業文件的數據輸入，例如支票、護照、發票、銀行對賬單和收據。

l 車牌自動識別

l 在機場，護照識別和信息提取

l 自動保險文檔密鑰信息提取

l 提取名片信息到聯繫人列表中

l 對大型打印文件進行數字版本的處理，例如圖書掃描

l 使印刷文件的電子圖像可檢索，如谷歌書籍

l 實時轉換手寫來控制計算機(筆計算)

按行業分類的OCR用例

l 銀行

Ø 銀行業和保險、證券等其他經濟部門一樣，都是OCR的重要消費者。

Ø OCR最常見的用途是妥善管理支票:

Ø 手寫支票被掃描

Ø 內容被轉換成數字文本

Ø 驗證簽名

Ø 實時清除檢查

儘管打印支票幾乎需要100%的準確性(只有簽名驗證需要匹配預先存在的數據庫)，但手寫完全識別仍有很長的路要走。

然而，隨着深度學習人工智能方法應用於OCR手寫，它可能並不像看起來那樣不可解決。

從付款人到銀行再到收款人，減少支票清算處理時間對每個人來說都是一種優勢。

l 法律

很少有行業能產生像法律行業那樣多的文書工作，因此OCR在這裡有多種應用。

使用最簡單的OCR閱讀器可以對所有打印文件進行數字化、存儲、數據庫和搜索:宣誓書、判決、文件、聲明、遺囑等。

這種技術也適用於中文、阿拉伯語和其他文字的記錄。

對於一個嚴重依賴歷史的行業來說，快速獲取數百萬過去案件中的法律文件無疑是一個優勢。

l 醫療保健

另一個與OCR合作良好的行業是醫療保健。整個醫療歷史可以被掃描並存儲在電腦上:醫療報告、x光片、疾病記錄、治療或診斷、測試、醫院記錄、保險支付等。這些都可以在一個地方訪問，並且可以搜索。

事實上，整個醫院的記錄都是數字化存儲的，這對流行病學和後勤(維持適當的藥店、設備和其他消費品)也有很大的好處。

（OCR對於藥品行業應用）

l 供應鏈

在食品、飲料、製藥和化妝品行業，每一環節的質量控制對於遵守安全和防偽合規至關重要。

物品必須在任何指定的時刻位於供應鏈控制內，並有其來源和位置的信息。

雖然產品跟蹤通常被認為是一種條形碼應用，但OCR允許您閱讀批號、有效期和序列號，以跟蹤產品在包裝周期的所有階段——從包裝標籤到碼垛操作。

條形碼和OCR經常一起使用，以最大限度地提高信息收集的準確性。

當然還有國際貨代流程中的托書，箱單，提單，發票，SI，衛生證，到貨通知，申報要素，VGM，報關單，簽收單，銀行水單等等文件，都以非機構化數據出現，都可以通過OCR識別並且結構化。

OCR的好處

功能強大：

您可以以doc，.rtf，.txt(最簡單的)，pdf等保存您的文件，OCR幫助轉換為可讀的文本。這些文件可以很容易地使用任何系統進行搜索和利用。

可編輯性：

你可能想修改一份幾年前寫的舊合同，或者修改一份舊遺囑。使用OCR將文件數碼化後，您可以輕鬆地用文字處理器編輯它，而不必鍵入整個文件。

可訪問性：

OCR掃描的文件在一個公共數據庫上可以訪問，這對銀行來說尤其有用，因為銀行可以隨時隨地查看客戶以前的信用記錄。

另一個用途是讓政府檔案公開，這樣你的土地和財產所有權記錄或你祖父的出生證明可以在任何地方立即找到。

可存儲性：

數字化將存儲所需的空間從整個房間(如果不是“房間”)減少到服務器上的字節，提高生產率，節約空間。

備份：

與保留昂貴的紙質複本相比，數字備份可以製作得很便宜，而且可能是無限的。

可譯性：

現代OCR可以管理大量的語言，從阿拉伯語到印度語再到漢語。這意味着一種語言的論文可以被搜索、數字化和翻譯成任何其他語言。因此，我們幾乎可以消除對專業翻譯的需求。

OCR將如何幫助您的業務

OCR作為數字化的一種手段有幾個優勢。在商業中，經常有大量的數據和文件，無論是關於合同、運單、政府表格、許可證、證書、價目表、目錄等。

數字化後，你可以將它們與其他幾個數字文檔進行比較，因此，通過比較文檔，你可以輕鬆地獲得最優惠的價格、服務、條款和條件等。

通過使用OCR，您可以檢查與您簽署的合同的原始條款和條件的差異。同樣，支票也可以核對數量，發票也可以比較，等等。

此外，通過數字化文檔，您可以訪問它們進行最新的分析，提示您如何改進，避稅，真實財務狀況。

這些其實就是數字化的優勢，OCR可能是數字化轉型的一個關鍵步驟。

Thanks: Forough Karandish

編輯：朱亞潑

作者：曾志宏，北科大畢業，新加坡國立大學MBA，曾服務於GE，Rolls--Royce，JCI，Ariba等國際性企業，上海趨研科技聯合創始人。

科技

英國超級跑車的短暫輝煌 Spectre R42 - 天天要聞

英國超級跑車的短暫輝煌 Spectre R42

Spectre R42是1990年代英國汽車工業中一顆璀璨卻短暫的明星，它承載着福特GT40精神傳承的使命，卻最終成為了汽車歷史上的遺珠。這款車的故事始於一個對經典賽車充滿熱情的工程師雷·克里斯托弗，他曾是GT Developments公司的聯合創始人，該公司

06月30日 2489

首艘、首個、首場！上周末，我國多領域解鎖新成就 - 天天要聞

首艘、首個、首場！上周末，我國多領域解鎖新成就

剛剛過去的周末我國清潔能源、科技等多個領域紛紛傳出好消息實現重要突破 01 ....

06月30日 9966

被召回充電寶問題指向電芯原料，無3C認證未被召回的還能用嗎？ - 天天要聞

被召回充電寶問題指向電芯原料，無3C認證未被召回的還能用嗎？

近日，羅馬仕、安克等充電寶品牌宣布召回旗下多款充電寶；多款充電寶品牌的3C認證證書被“暫停”；民航局發布緊急通知，禁止攜帶部分充電寶乘坐境內航班……一時間，充電寶的安全問題成為熱議話題。被召回的充電寶安全問題出在哪裡？消費者手中，既沒有3C

06月30日 1142

發售四日銷量已破萬！小米AI眼鏡火了 - 天天要聞

發售四日銷量已破萬！小米AI眼鏡火了

“您的眼前是一副黑框眼鏡，背後有空調、冰箱等家電產品，您似乎處在一個商店內。”6月29日，小米AI眼鏡發售的首個周末，記者來到位於上海浦東新區長泰廣場的小米之家探訪，親身體驗小米AI眼鏡的識物功能。

06月30日 1923

患者藉助無人機調血搶回了生命！江漢平原首個轉運醫療物資的無人機投運 - 天天要聞

患者藉助無人機調血搶回了生命！江漢平原首個轉運醫療物資的無人機投運

極目新聞記者黃志剛通訊員杜川日前，一名因車禍導致肝破裂的患者被緊急送往湖北省荊州市第一人民醫院（一下簡稱：荊州一醫）新城院區。術中，該患者失血超2000ML，血壓驟降，而血庫的A型血告急。手術的危急時刻，醫院啟動緊急預案，向總院申請調配A型紅細胞。藉助運載無人機，原本需要至少35分鐘的人工轉運，僅用了約7分...

06月29日 5906

劍指秦PLUS和M03！零跑B01預售10.58萬起，650km續航誰壓力更大？ - 天天要聞

劍指秦PLUS和M03！零跑B01預售10.58萬起，650km續航誰壓力更大？

注意了！念寒接下來要聊的這台車，最近熱度可不低，就是零跑剛開預售的B01。關於這台車，其實後台有不少車友催我聊聊，說實話，我也一直在盯着。不過事先說好，零跑沒有給我充值，也沒....

06月29日 9196

龍旗科技向港交所遞交 H 股上市申請 - 天天要聞

龍旗科技向港交所遞交 H 股上市申請

DoNews6月29日消息，龍旗科技 29 日發布公告，宣布公司已於 27 日向香港聯合交易所有限公司遞交了發行 H 股股票並在香港聯交所主板掛牌上市的申請，並於同日在香港聯交所網站刊登了本次發行上市的申請資料。花旗、海通國際、國泰君安國際為龍旗科技聯席保薦人。招股書顯示，龍旗科技是全球領先的智能產品和服務提供商，目前...

06月29日 4667

售價25.49萬元！這款豪華插混SUV硬剛小米YU7 - 天天要聞

售價25.49萬元！這款豪華插混SUV硬剛小米YU7

日前，沃爾沃全新XC60上市，新車有燃油版和T8插電混動兩種動力版本，共8款車型，廠商建議零售價區間為39.69萬-60.39萬元。不過，此次沃爾沃為全新XC60準備了限時參考尊享價，價格區間為25.49萬-43.49萬元，起價直接降低了14萬元左右。作為改款車型，新車主要針對設計，智能和動力方面進行了升級，下面我們就來詳細看看新車...

06月29日 8732

信用卡被異地盜刷？你手機的NFC功能被騙子盯上了 - 天天要聞

信用卡被異地盜刷？你手機的NFC功能被騙子盯上了

近日，北京市第三中級人民法院對一起盜刷信用卡案進行了二審宣判。在這起案件中，多名被害人，信用卡沒有丟失也沒有被複制，卡上的錢卻在48小時內，異地被接連盜刷，共計一百多萬元。家住北京朝陽的張先生，在2023年4月的一天，突然收到銀行短信通知，他的信用卡在海南產生多筆大額消費。這些扣費通知顯示，從下午3點56分到...

06月29日 5644

中國電信首席科學家畢奇：低空經濟正從探索階段進入規範發展階段，“數字低空”是關鍵底座 - 天天要聞

中國電信首席科學家畢奇：低空經濟正從探索階段進入規範發展階段，“數字低空”是關鍵底座

每經記者：程雅每經編輯：董興生6月27日—29日，“第三屆低空（蘇州）產業創新生態大會暨2025數字低空大會”在蘇州工業園區國際博覽中心舉行。

06月29日 1770