光学字符识别称为“OCR”。 ORC是一种对包含文本数据的图像文件进行分析和识别以获得文本信息和布局信息的技术。
它通常涉及以下过程:
1.图像输入
不同格式的图像有不同的存储格式和压缩方法。目前用于访问图像的开源项目包括OpenCV和CxImage。
2. 预处理
预处理主要涉及二值化、去噪、倾斜校正等具体细节。
二值化:大多数情况下,用相机拍摄的照片都是彩色图像,其中包含非常丰富的信息,因此需要进行简化。您可以简单地将图像内容分为前景和背景。为了让计算机更快更好地识别文本,它们必须首先处理彩色图像,以便图像中仅保留前景和背景信息。也就是说,前景被定义为黑色,背景被定义为白色。这是一个二值图像。图1 显示了处理前后彩色图像和二值图像的比较。
噪声消除:噪声的定义可能因文档而异。噪声去除是根据噪声的特性去除噪声的过程。
矫正:用户拍摄的照片通常比较随机,因此文档很可能是倾斜的。这时候就需要使用字符识别软件来纠正了。
3、布局分析
将文档图像划分为段落和行的过程称为布局分析。由于真实文档的多样性和复杂性,目前不存在固定的最佳剪切模型。
4.人物剪辑
由于拍摄条件的限制,经常会出现人物粘在一起或者断笔的情况,这极大地限制了识别系统的性能。这时,字符识别软件就必须具有字符切割功能。
5. 字符识别
模板匹配很早就出现了,然后特征提取成为主要焦点。文本位移、笔划粗细、笔划断、粘贴、旋转等效果大大增加了提取难度。
6. 恢复布局
通常,人们希望识别的文本以与原始文档图像相同的方式对齐,而不改变段落、位置或顺序,并将其输出到Word 或PDF 文档。这个过程称为布局恢复。
7. 后处理和验证
不同的语言环境有不同的语言逻辑顺序。因此,有必要根据上下文的语言特征对识别结果进行修正。这个过程就是后处理。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。