OCR识别软件怎么做到识别发票的

产品中心

解决方案

客户案例

实在学院

关于我们

400-139-9089 下载中心

中/英

行业百科

分享最新的RPA行业干货文章

行业百科>OCR识别软件怎么做到识别发票的

OCR识别软件怎么做到识别发票的

2023-08-15 17:35:51

OCR识别软件识别发票的过程如下：

首先，打开OCR识别工具，在左侧选择“票证识别”中的“增值税票据”。
然后，点击添加文件，将发票图片上传到工具中。
在左侧选择识别格式，可选择TXT和DOC格式。
接着，点击此处选择文件导出目录。
最后，点击右上角的“开始识别”即可。
识别完成后，点击前往导出文件位置浏览文件就可以了。

发票OCR识别软件主要是通过以下步骤实现的：

图像预处理：对发票原图进行简单的形态学操作，获取最佳的二值图像。
表格提取：对二值图像进行线段识别，以实现表格提取。表格由水平线和垂直线组成，因此需分别在两个方向上对发票进行线段提取。提取线段的形态学操作就是通过自定义的结构元素，构造对指定形状敏感的形态学运算，再通过膨胀和腐蚀操作处理敏感像素。提取水平线时创建自定义内核形态为竖向矩形，此时的敏感对象是垂直线段，通过开运算腐蚀垂直方向像素，水平线即被保留；提取垂直线段时创建自定义内核形态为横向矩形。图像所有线段均提取后，对输出结果进行“与”操作以求得交点坐标，发票内容通过坐标对进行匹配。再对提取出的水平线图、垂直线图做加法合并，即可得到完整的表格框线图。
内容匹配：发票内容为多行多列文本，对发票先分割再识别，把含有用信息的表格单独切割，每个表格都是一张图像，对于含多行文本的表格，通过算法对其进行再分割，使得到的每张图像都只含一列文本。
字符识别：发票文档由中英文、数字和特殊符号共同组成，Tesseract-OCR引擎自带的字库识别准确率并不高，引入jTessBoxEditor来训练专门针对发票识别的字库。通过修正坐标，将内容与表格边框分隔开，使表头与内容精准匹配，从而实现任意区域下对特定表格进行内容提取，并高效精准识别。

以上就是OCR识别软件识别发票的过程，供您参考。

上一篇文章

自然语言处理常见的算法有哪些？

下一篇文章

流程挖掘