首页 > 自考资讯 > 高考百科

OCR是什么?具体能做什么?,ocr是一种什么技术

小条 2024-09-23

OCR——简单的说就是文字识别技术,将电子文本转为可编辑文本

OCR(光学字符识别)

通过电子或机械方式将扫描文档、文档照片、风景照片(例如风景中标志或广告牌上的文本)中的打字、手写或打印文本图像转换为机器编码文本,将其转换为. (照片)或在Word 中叠加有标题的图像。

广泛用作印刷纸质数据记录的数据输入格式—— 护照、发票、银行对账单、计算机收据、名片、邮件、静态数据打印输出或任何其他合适的—— 这是数字化印刷文本的常用方法。它可以进行电子编辑、搜索、更紧凑地存储、在线查看以及用于认知计算、机器翻译、(提取的)文本转语音、关键数据和文本挖掘等机器过程。 OCR 是模式识别、人工智能和计算机视觉的研究领域。

492be2953100453e89aa023a44dfd8ed~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727659885&x-signature=IPxZZiJd8hhrnmqGPgaIep6F4rE%3D 电子文本转可编辑文本

诞生历程

早期的光学字符识别可以追溯到电报和为视障人士创建阅读设备所涉及的技术。 1914 年,伊曼纽尔·戈德堡(Emanuel Goldberg) 开发了一种机器,可以读取字符并将其转换为标准电报代码。与此同时,Edmond Fournier d'Albes 开发了Optophone,这是一种手持式扫描仪,当它在印刷页面上移动时,会产生与特定字母相对应的音调。

在20 年代末和1930 年代,Emmanuel Goldberg 开发了他所谓的“统计机器”,用于使用光学代码识别系统搜索缩微胶片档案。 1931年,他的发明获得美国专利号1,838,389。该专利由IBM获得。

1974 年,Ray Kurzweil 创立了Kurzweil Computer Products, Inc.并在20 世纪60 年代和1970 年代继续开发可以识别几乎任何字体的印刷文本的全字体OCR(Kurzweil 通常被认为是全字体OCR 的发明者)。 (包括CompuScan)。库兹韦尔认为,这项技术的最佳应用是为视障人士创建一台阅读机,可以使用计算机大声朗读文本。该设备需要发明两项智能技术:CCD 平板扫描仪和文本语音合成器。 1976 年1 月13 日,在库兹韦尔和全国盲人联合会领导人主持的一场广为人知的新闻发布会上,这面纱成功揭开。 1978 年,Kurzweil Computer Products 开始销售其光学字符识别计算机程序的商业版本。 LexisNexis 是其首批客户之一,购买了一个程序,将法律文件和新闻文件上传到其新生的在线数据库。两年后,库兹韦尔将公司卖给了施乐。施乐公司对进一步商业化纸质到计算机文本转换感兴趣。 Xerox 最终将其分拆为ScanSoft,并与Nuance Communications 合并。

2000 年代,OCR 作为在线服务(WebOCR) 出现在云计算环境和移动应用程序中,例如智能手机上外语符号的实时翻译。随着智能手机和智能眼镜的出现,OCR 现在可用于连接互联网的移动设备应用程序,这些应用程序使用设备的摄像头提取捕获的文本。这些操作系统中没有内置系统OCR 功能的设备通常使用OCR API 从设备捕获和提供的图像文件中提取文本。 OCR API 将提取的文本以及有关原始图像中检测到的文本的位置的信息返回到设备应用程序以进行进一步处理(例如文本转语音)或显示。

有多种适用于最常见书写系统的商业和开源书写系统,包括拉丁文、西里尔文、阿拉伯文、希伯来文、印度文、孟加拉文、梵文、泰米尔文、中文、日文和韩文OCR 系统。

54aeaf00a073410fb533832854d50040~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727659885&x-signature=26aXO5k2QKRBemr3JXT3QsOTEfw%3D 雷·库兹韦尔

7f3a0799c7074f92805c484e73a834d6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727659885&x-signature=SY8RYX%2Bk2Oz%2Fxgq8VkegEgWhF8o%3D 早期平板扫描仪

应用范围——OCR引擎已经发展成多种特定领域的OCR应用,如收据OCR、发票OCR、支票OCR、法律帐单OCR等。

专门用于以下领域:

支票、护照、发票、银行对账单、收据等商业文件的数据输入机场护照识别和信息提取的自动车牌识别从保险文件中自动提取重要信息路标识别联系信息将名片信息提取到列表更快地创建打印文档的文本版本搜索打印文档的电子图像搜索打印文档的电子图像实时转换手写文本以控制计算机预防欺诈减少视觉障碍单个用户的辅助技术识别CAD 图像并创建车辆的数据库实时适应不断变化的车辆设计的描述。将扫描文档转换为可搜索的PDF 并使其可搜索

a10c84b951dc46e0b0e7cc7fb5c05e49~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727659885&x-signature=HH%2BZ3dfiX5REFHHwLGEiHkUXZEE%3DOCR识别型

技术实现步骤

[预处理] —— OCR 软件经常对图像进行“预处理”,以增加成功识别的可能性。技术包括:

倾斜: 如果扫描时文档未正确对齐,您可能需要顺时针或逆时针倾斜文本几度,使其完全水平或垂直。祛斑: 可去除正斑点和负斑点,平滑边缘二值化: 将图像从彩色或灰度转换为黑白(称为“二值图像”,因为它有两种颜色)。二值化任务是作为将文本(或任何其他图像组件)与背景分离的简单方法来执行的。大多数商用识别算法仅适用于二值化图像,因此需要二值化本身的任务。这是因为二值化变得更简单。此外,二值化步骤的有效性极大地影响字符识别阶段的质量。二值化方法的质量取决于输入图像的类型,因此在选择用于特定输入图像类型的二值化时应谨慎决策。输入图像(扫描文档、场景文本图像、历史降级文档等)。行删除:清理非字形框,并且行布局分析或“分割”:将序列、段落、标题等识别为不同的部分。这对于多列布局和表格尤其重要。线条和单词检测: 为单词和字母形状建立基线,并根据需要分隔单词。脚本识别: 在多语言文档中,脚本可以在单词级别进行修改,因此有必要在调用正确的OCR 来处理特定脚本之前识别脚本。分离或“分割”字符: 逐个字符的OCR 需要分离由图像伪影连接的字符,并连接由伪影分成多个部分的单个字符。标准化纵横比和比例

[文本识别] —— 有两种基本类型的核心OCR 算法可以生成候选字符的排序列表。

矩阵匹配逐像素比较图像和存储的字形。这也称为“模式匹配”、“模式识别”或“图像相关性”。这依赖于输入字形与图像的其余部分很好地分离,并且保存的字形具有相似的字体和相同的比例。此技术最适合键入文本,但在遇到新字体时效果不佳。这是早期基于物理光电池的OCR 实现技术的直接实现。特征提取将字形分解为“特征”,例如线条、闭环、线条方向和线条交叉点。提取特征降低了表示的维度并提高了识别过程的计算效率。这些特征与字符的抽象矢量表示进行比较,后者被简化为一个或多个字形原型。计算机视觉中特征检测的常用技术适用于此类OCR。这在“智能”手写识别和现代OCR 软件中很常见。 [24]最近邻分类器,例如k近邻算法,用于将图像特征与存储的字形特征进行比较并选择最接近的匹配。 Cuneiform 和Tesseract 等软件使用两遍方法来识别字符。第二遍称为“自适应识别”,它使用在第一遍中以高置信度识别的字符形状来更好地识别第二遍中的剩余字符。这对于不寻常的字体或具有字体失真(例如模糊或褪色)的低质量扫描非常有用。现代OCR 软件(例如OCRopus 和Tesseract)使用经过训练的神经网络来识别整行文本,而不是专注于单个字符。目前,国内的百度云、阿里云、腾讯云以及一些第三方科技公司都在推出基于机器学习的在线OCR识别API。

75bebd297f9847e9b44f4e7294c2e7ae~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727659885&x-signature=fGZspOShpX2OUdJ%2B6M0BaaR8LRs%3D 使用机器学习更快地识别和输出结果

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢