OCR的概念于1929年由德国科学家Tausheck最先提出。最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy。在20世纪的60、70年代,世界各个国家对OCR的研究主要集中在对文字的识别方法上,并且仅是对0到9的数字进行识别。而国内在OCR技术的研究相对较晚。在20世纪70年代,国内学者起初研究的是数字、英文字母及符号的识别,70年代末开始研究汉字的识别。OCR技术在目前互联网及人工智能迅速发展的趋势下,也有了飞速的发展。到目前为止,结合其他方向的技术,特别是人工智能方向,OCR技术已经发展到可以识别带有地理位置信息的图纸,可以对文字进行高精度的识别,包括生僻字在内的情况。OCR技术也普遍应用在日常生活,最为熟悉的是实在RPA可以拍照识别图纸上的题目文字,另外还有一系列文字识别功能,包括:身份证识别、名片识别、表格识别等等。
图像输入预处理
图像输入,对其进行预处理操作。对于不同格式的图像,有着不同的存储格式和压缩方式。文中的图像输入,上传图片方法是实现客户端上传一张本地图片或者使用抓包工具postman向百度服务器发送url请求时设置参数添加一张本地带汉字的图片。预处理过程,是使用阈值分割法把图片上每个像素二值化。以下是用Java语言实现的预处理函数,函数是根据图片高度和宽度遍历图片上的每个像素点,通过ISWHITE来判断当前像素值。
灰度化处理,在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值。灰度图每个像素只需一个字节存放灰度值,其范围是0~255。将彩色图像中的三分量的亮度作为三个灰度图像的灰度值。其中fk(i,j)(k=1,2,3)为转换后的灰度图像在(i,j)处的灰度值。采用分量方法。
二值化过程,根据灰度图像中像素的灰度级值的取值范围为c0,希望能够更加显现出图像中的文字部分,一般图像中的文字为黑色,在灰度图像中灰度值较小。二值化过程使用Otsu算法实现,Otsu算法又称为最大类间方差法。设一幅图像大小为(M*N),f(x,y)是该图像中点(x,y)处像素的灰度值,灰度级为L,则f(x,y)∈[0,L-1]。若灰度级i的所有像素个数为fi,则第i级灰度出现的概率为:P(i)=fiM*N(4)∑L-1i=0P(i)=1(5)将图像中的像素按灰度级用阈值t划分为两类,即背景c0和目标c1[14]。背景c0的灰度级为0~t-1,目标的灰度级为t~L-1。背景c0和目标c1对应的像素分别为f(i,j)。背景c0部分出现的概率和目标c1部分出现的概率分别为:w0=∑t-1i=0P(i)w1=∑L-1i=tP(i)其中,w0+w1=1。背景c0部分和目标c1部分的平均灰度值分别为:u0(t)=∑t-1i=0i*P(i)w0(8)u1(t)=∑L-1i=ti*P(i)w1(9)图像的总平均灰度值为:u=∑L-1i=0i*P(i)(10)图像中背景和目标的类间方差为:δ2(k)=w0(u-u0)2+w1(u-u1)2(11)令k的取值从0~L-1变化,计算不同k值下的类间方差δ2(k),使得类间方差δ2(k)最大时的那个值就是所要的最佳阈值。2图像分割图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。图像分割方法近年来又有新型神经网络图像分割法,文中使用阈值分割法进行图像分割。阈值分割方法实际上是输入图像f到输出图像g的变换,公式如下:g(i,j)=1,f(i,j)≥T{g(i,j)=0,f(i,j)≤T其中,T为阈值,对于物体的图像元素g(i,j)=1,对于背景的图像元素g(i,j)=0。如果能确定一个合适的阈值就可准确地将图像分割开来。阈值确定后,将阈值与像素点的灰度值逐个进行比较,而且像素分割可对各像素并行地进行,分割的结果直接给出图像区域。