OCR(光学字符识别)及其应用

2021年09月21日16:43:14 科技 1692

什么是光学字符识别?

OCR(光学字符识别)及其应用 - 天天要闻


光学字符识别(OCR)是将pdf,Word, Excel或者文本图像转换为机器编码文本(机构化数据)的一种AI工具。


有了OCR,大量基于纸张的、跨多种格式,多种形式的文档都可以数字化成机器可读的文本,这不仅使存储变得更容易,而且方便在各个系统当中录入数据,进行调用和分析。


试想一下,一个城市或政府,大学,医院地下室里有多少装满文件的档案箱。

OCR(光学字符识别)及其应用 - 天天要闻


OCR是如何工作的?

不同的字体和书写单个字符的方法使这个问题成为一个挑战。在选择OCR算法之前,必须对图像进行预处理,使图像可以被“读取”。


l 预处理

OCR软件通常对图像进行“预处理”以增加识别的机会。

技术包括:

1. De-skew(矫正)

如果文档在扫描时没有正确对齐,可能需要顺时针或逆时针倾斜几度,以创建完全水平或垂直的文本行。

2. 去除杂点

去除杂点点,平滑边缘

3. 二制化

将图像转换为黑白(称为“二值图像”,因为有两种颜色)。二值化任务是作为一种简单而准确的方法从背景中区分文本。

4.消除线

清理非符号框和线条。

5. 布局分析或“分区”

将列、段落、标题等标识为块。在多栏布局和表格中特别有用。

6. 行字检测

建立单词和字符的形状基线,根据需要划分单词。

7. 脚本识别

在多语言文档中,脚本可能在单词级别进行转换,因此在利用相关OCR来管理特定脚本之前,脚本标识是至关重要的。

8. 字符隔离或“分段”

对于OCR字符,应将图像链接的各种字符进行分割,将单个字符分割为若干基于伪影的片段进行链接。

9. 规格化

规格化纵横比和比例尺。


l 特征提取

在OCR中提取特征主要有两种方法:

1, 特征检测算法通过评估字符的线条和笔画来定义字符。

2, 模式识别的工作原理是识别整个字符。

我们可以通过搜索中间有黑色像素的白色像素行来识别一行文本。类似地,我们可以识别字符在哪里开始哪里结束。


下图分别展示了这些方法的可视化效果:

OCR(光学字符识别)及其应用 - 天天要闻


(方法一: 特征检测

OCR(光学字符识别)及其应用 - 天天要闻


(方法2:对一行文本进行模式识别)

OCR(光学字符识别)及其应用 - 天天要闻


(方法2:单一字符的模式识别)


接下来,我们将字符的图像转换为一个二进制矩阵,其中白色像素为0,黑色像素为1,如下图所示:

OCR(光学字符识别)及其应用 - 天天要闻


(二进制矩阵的样本)


然后,利用距离公式,我们可以找到从矩阵的中心到最远的距离1。

OCR(光学字符识别)及其应用 - 天天要闻


(距离公式)


然后我们创建一个圆形的半径,并将其分割成更细颗粒的部分。


在这个阶段,算法将每个分段与表示不同字体字符的矩阵数据库进行比较,以确定统计上最常见的字符。


通过对每一行和每一个字符进行这样的处理,它使印刷体或者其他非结构化数据源很容易形成数字世界。

OCR(光学字符识别)及其应用 - 天天要闻


(将每个分段与矩阵数据库进行比较)


l 后处理

如果有一个词汇表(文档中允许使用的单词列表)的限制,则可以提高OCR的准确性。譬如限制是一个特定领域的专业的词汇。


为了提高准确性,网上有免费的OCR图书馆。


输出流可以是单个字符串或字符文件,但更高级的OCR系统保留原始页面结构,例如,创建包含原始图像页面和可搜索文本图像的PDF。


l 误差修正

“近邻分析”可以利用共现的频率来纠正错误,方法是注意到一些单词在一起出现过。例如,“Washington, D.C.”在英语中比“Washington DOC”更常见。


l 语法

语法也可以帮助确定被扫描的数据,例如,一个单词可能是动词或名词,提供更高的准确性。

OCR(光学字符识别)及其应用 - 天天要闻


OCR的用例

OCR引擎已经发展成一系列特定领域的OCR应用,包括收据、发票、

支票和法律文件

l 商业文件的数据输入,例如支票、护照、发票、银行对账单和收据。

l 车牌自动识别

l 在机场,护照识别和信息提取

l 自动保险文档密钥信息提取

l 提取名片信息到联系人列表中

l 对大型打印文件进行数字版本的处理,例如图书扫描

l 使印刷文件的电子图像可检索,如谷歌书籍

l 实时转换手写来控制计算机(笔计算)


按行业分类的OCR用例

l 银行

Ø 银行业和保险、证券等其他经济部门一样,都是OCR的重要消费者。

Ø OCR最常见的用途是妥善管理支票:

Ø 手写支票被扫描

Ø 内容被转换成数字文本

Ø 验证签名

Ø 实时清除检查

尽管打印支票几乎需要100%的准确性(只有签名验证需要匹配预先存在的数据库),但手写完全识别仍有很长的路要走。


然而,随着深度学习人工智能方法应用于OCR手写,它可能并不像看起来那样不可解决。


从付款人到银行再到收款人,减少支票清算处理时间对每个人来说都是一种优势。

OCR(光学字符识别)及其应用 - 天天要闻


l 法律

很少有行业能产生像法律行业那样多的文书工作,因此OCR在这里有多种应用。


使用最简单的OCR阅读器可以对所有打印文件进行数字化、存储、数据库和搜索:宣誓书、判决、文件、声明、遗嘱等。


这种技术也适用于中文、阿拉伯语和其他文字的记录。


对于一个严重依赖历史的行业来说,快速获取数百万过去案件中的法律文件无疑是一个优势。


l 医疗保健

另一个与OCR合作良好的行业是医疗保健。整个医疗历史可以被扫描并存储在电脑上:医疗报告、x光片、疾病记录、治疗或诊断、测试、医院记录、保险支付等。这些都可以在一个地方访问,并且可以搜索。


事实上,整个医院的记录都是数字化存储的,这对流行病学和后勤(维持适当的药店、设备和其他消费品)也有很大的好处。

OCR(光学字符识别)及其应用 - 天天要闻


(OCR对于药品行业应用)

l 供应链

在食品、饮料、制药和化妆品行业,每一环节的质量控制对于遵守安全和防伪合规至关重要。


物品必须在任何指定的时刻位于供应链控制内,并有其来源和位置的信息。

虽然产品跟踪通常被认为是一种条形码应用,但OCR允许您阅读批号、有效期和序列号,以跟踪产品在包装周期的所有阶段——从包装标签到码垛操作。

条形码和OCR经常一起使用,以最大限度地提高信息收集的准确性。

OCR(光学字符识别)及其应用 - 天天要闻


当然还有国际货代流程中的托书,箱单,提单,发票,SI,卫生证,到货通知,申报要素,VGM,报关单,签收单,银行水单等等文件,都以非机构化数据出现,都可以通过OCR识别并且结构化。


OCR(光学字符识别)及其应用 - 天天要闻


OCR的好处

功能强大:

您可以以doc,.rtf,.txt(最简单的),pdf等保存您的文件,OCR帮助转换为可读的文本。这些文件可以很容易地使用任何系统进行搜索和利用。


可编辑性:

你可能想修改一份几年前写的旧合同,或者修改一份旧遗嘱。使用OCR将文件数码化后,您可以轻松地用文字处理器编辑它,而不必键入整个文件。


可访问性:

OCR扫描的文件在一个公共数据库上可以访问,这对银行来说尤其有用,因为银行可以随时随地查看客户以前的信用记录。


另一个用途是让政府档案公开,这样你的土地和财产所有权记录或你祖父的出生证明可以在任何地方立即找到。


可存储性:

数字化将存储所需的空间从整个房间(如果不是“房间”)减少到服务器上的字节,提高生产率,节约空间。


备份:

与保留昂贵的纸质复本相比,数字备份可以制作得很便宜,而且可能是无限的。


可译性:

现代OCR可以管理大量的语言,从阿拉伯语到印度语再到汉语。这意味着一种语言的论文可以被搜索、数字化和翻译成任何其他语言。因此,我们几乎可以消除对专业翻译的需求。


OCR将如何帮助您的业务

OCR作为数字化的一种手段有几个优势。在商业中,经常有大量的数据和文件,无论是关于合同、运单、政府表格、许可证、证书、价目表、目录等。


数字化后,你可以将它们与其他几个数字文档进行比较,因此,通过比较文档,你可以轻松地获得最优惠的价格、服务、条款和条件等。


通过使用OCR,您可以检查与您签署的合同的原始条款和条件的差异。同样,支票也可以核对数量,发票也可以比较,等等。


此外,通过数字化文档,您可以访问它们进行最新的分析,提示您如何改进,避税,真实财务状况。


这些其实就是数字化的优势,OCR可能是数字化转型的一个关键步骤。

OCR(光学字符识别)及其应用 - 天天要闻



Thanks: Forough Karandish

编辑:朱亚泼

作者:曾志宏,北科大毕业,新加坡国立大学MBA,曾服务于GE,Rolls--Royce,JCI,Ariba等国际性企业,上海趋研科技联合创始人。

科技分类资讯推荐

两大消息发酵,半导体盘中急拉!半导体设备ETF(561980)涨逾2%再成领涨先锋 - 天天要闻

两大消息发酵,半导体盘中急拉!半导体设备ETF(561980)涨逾2%再成领涨先锋

6月30日早盘,三大股指小幅飘红,盘面上光刻机、光刻工厂等概念领涨,聚焦半导体设备、材料、设计的中证半导指数大涨超2%,居A股主流半导体指数第一。跟踪该指数的半导体设备ETF(561980)早盘高开快速拉升,盘中最高涨逾2%,成交额近2500万元,交投层面持续活跃。成份股方面,珂玛科技、神工半导体、晶瑞电材涨逾5%,寒武...
我不给人做产品,给Agent做|42章经 - 天天要闻

我不给人做产品,给Agent做|42章经

曲凯: Agent 今年这波热潮其实是 Manus 带起来的,到现在为止,各种 Agent 大家已经投得不少了。那下一个热点可能在哪里? 我们觉得可能是 Agent Infra。
脉冲布袋除尘器选择空压机的关键因素 - 天天要闻

脉冲布袋除尘器选择空压机的关键因素

脉冲布袋除尘器配备合适的空压机是确保其高效、稳定运行的关键环节。选择不当会导致清灰无力(阻力升高、能耗增加)、清灰过度(滤袋寿命缩短)或空压机频繁启停(能耗高、寿命短)。以下是详细的选型步骤和考虑因素:## 核心选型要素1.
“华系MPV头把交椅”的底气何在?央视直击传祺向往M8干昆锻造高品质出行生态链 - 天天要闻

“华系MPV头把交椅”的底气何在?央视直击传祺向往M8干昆锻造高品质出行生态链

选择一辆大型MPV,往往意味着它承载着全家出行的幸福,或是商务场合的体面与责任。正因如此,用户对安全的敏感度远超其他车型。痛点,清晰而尖锐:庞大的车身是否真能成为坚固的移动堡垒?尤其是常被戏称为“板凳”的第三排,在事故中能否获得同等的安全保障?面对复杂路况和突
中国智造向高端进阶!传祺向往M8干昆交付背后的中国豪华MPV进化论 - 天天要闻

中国智造向高端进阶!传祺向往M8干昆交付背后的中国豪华MPV进化论

选择一辆大型MPV,往往意味着它承载着全家出行的幸福,或是商务场合的体面与责任。正因如此,用户对安全的敏感度远超其他车型。痛点,清晰而尖锐:庞大的车身是否真能成为坚固的移动堡垒?尤其是常被戏称为“板凳”的第三排,在事故中能否获得同等的安全保障?面对复杂路况和突
各地网约车销量榜出炉,网约车谁家卖得好? - 天天要闻

各地网约车销量榜出炉,网约车谁家卖得好?

近日,2024年国家中心城市网约车市场销冠品牌榜单发布,埃安、北汽、荣威等品牌在榜。榜单显示,每个城市都有自己的“网约车销冠”品牌,以北上广为例,北京的“网约车销冠”是北汽、上海是荣威、广州是埃安。
云南景邦:专业光伏立柱代加工,点亮绿色能源未来 - 天天要闻

云南景邦:专业光伏立柱代加工,点亮绿色能源未来

在全球积极推动绿色能源发展的浪潮中,光伏发电作为一种清洁、可持续的能源形式,正日益受到广泛关注。云南景邦,作为一家在光伏立柱生产加工领域深耕多年的企业,凭借其卓越的品质、先进的技术和完善的服务,成为了众多光伏发电项目的首选合作伙伴。