OCR掃描識別技術在智能檔案數字化中的應用

2022年08月23日14:46:24 科技 1407

大家好，今天兌觀科技南大智星小編又為大家分享檔案管理乾貨了，本篇分享主要內容為——OCR掃描識別技術在智能檔案數字化中的應用。

1、OCR掃描識別技術與檔案數字化的關係

從當前流行的檔案數字化技術層面分析，檔案的存儲技術、載體性質、計算機運行和檢索速度都在發生著日新月異的變化，但檔案的檢索技術從本質上還是沒有改變，與傳統手工目錄檢索一樣依賴於檔案案卷和卷內目錄。隨著OCR掃描識別技術的不斷完善，OCR識別軟體的識別正確率趨向完美以及辦公自動化軟體的推廣，檔案檢索技術得以突破目錄檢索的瓶頸，可以實現全文任何字元的檢索。

這是自計算機資料庫技術、網路技術以及存儲技術運用於檔案管理後又一個里程碑式的發展，使檔案信息檢索技術實現了跨越式的發展，從根本上解決了檔案用戶面對浩瀚檔案目錄無所適從、束手無策的局面。從OCR掃描識別技術的發明到實際應用一直沒有脫離計算機資料庫技術和文字輸入背景，也就是OCR掃描識別技術的產生是為了減輕批量文字輸入、列印工作量、提高工作效率，而檔案信息數字化的關鍵技術和工作也是海量文字的輸入和檢索，所以可以斷定OCR掃描識別技術的產生和發展是檔案現代化管理或類似檔案管理行業在發展過程中，存在批量文字輸入計算機資料庫時，代替人工單字或片語輸入的最適合的方法之一。從技術層面講兩者的關係是相互依賴、相互發展、相互促進。

2、OCR掃描識別技術在檔案數字化中的使用方法

OCR掃描識別技術在檔案數字化中運用，主要過程是把紙質載體檔案的信息內容利用高速掃描儀轉換成計算機能識別的圖像文件，如JPG、TIF或合成多頁的PDF文件，再利用OCR軟體的字元識別功能把不能編輯的圖像文件和PDF文件中每個字元與標準的漢字資料庫中字元對比，截取相同形狀的字元並保存在文本編輯軟體中，保持能編輯的狀態，並可以進行自動標引或運用各類資料庫軟體的搜索引擎針對字元搜索，以達到檔案信息的全文檢索。

在實際檔案全文數字化過程中一般先把一份文件掃描成多頁JPG、TIF或PDF文件，再運用OCR軟體識別並判斷識別效果，並進行必要的調整和修復就可以到達全文數字化的要求。

在掃描生成頁面後，OCR掃描識別技術針對印刷體的頁面文件一般識別率可達99％以上，在自動糾錯、人工校對後，基本符合檔案數字化的要求。從掃描和識別的速度分析，一般中檔掃描儀每分鐘掃描在40－60頁面左右，配合主流OCR識別軟體以及處理、分析、校對每頁檔案全文數字化用時在1分鐘以內，裝訂50個頁面的案卷數字化時間在30分鐘左右。與人工單字元輸入法相比，工作效率提高近十倍，工作強度成倍減少。運用OCR掃描識別技術進行檔案全文數字化，工作人員可以長時間連續工作，而純人工輸入連續工作的後果是差錯率的居高不下，從而影響檔案信息全文的檢索和使用。

3、OCR掃描識別技術在檔案全文信息輸入中作用

OCR掃描識別技術在檔案全文檢索技術中的運用主要在於實現檔案全文資料庫的輸入工作。面對浩瀚如海的館藏檔案案卷以及每日俱增的新歸檔案卷，依賴單個字元的輸入法和數量相對較少的檔案工作人員是無法完成如此巨大的全文輸入工作量。在檔案管理工作中館藏量和增量檔案一般很難縮小和控制，工作人員數量很難大幅度增加，所以唯有改變數據的輸入方式，提高輸入效率。

OCR掃描識別技術正是彌補了單字元輸入速度慢的不足，OCR掃描識別識別率的大幅提高更是填補單字元輸入差錯率高的缺陷。因此從當前檔案全文數字的工作量以及計算機輸入和各種文字識別技術的功效來判定，OCR掃描識別技術是比較適應檔案全文數字化的一種技術，是實現檔案全文數字化的技術基礎和實現途徑之一。

想要了解更多智能檔案管理乾貨，請關注兌觀科技官網www.videt.cn，歡迎您諮詢，諮詢熱線400-102-0089。