热门产品:连接器检测系统|字符检测识别系统|机器视觉系统|机器视觉设备|机器人视觉引导系统

首页 > 相关知识

智能字符识别技术(OCR技术)概述

来源:易菲特   添加时间:2014-10-07 23:53:31

光学字符识别(OCR, Optical Character Recognition)是针对印刷体字符,采用光学的方式将文档资料转换成为原始资料黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件进一步编辑加工的系统技术。首先通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后检测暗、亮的模式确定其形状,最后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。

字符识别过程流程图:

图像输入、预处理

版面分析

字符切割

字符识别

版面恢复

后处理、校对

 

光学字符识别技术不仅具有可以自动判断、拆分、 识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果,能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿的版面布局一致的新文本。表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。同时支持将表格识别直接还原成PTF、PDF、HTML等格式文档;并可以对图像嵌入横排文本和竖排文本、表格文本进行自动排版面分析。

光学字符识别技术主要应用于办公自动化中的文本输入、邮件自动处理等与自动获取文本过程相关的领域。如零售价格识读、订单数据输入、单证、支票和文件识读、微电路及小件产品的状态及批号特征识读等。

上一篇:选择激光识别条形码的原因

下一篇:三维机器视觉测量概述