EXCEL图像内的文本识别方法与实现开题报告

 2022-11-05 10:19:44

1. 研究目的与意义

在现在的工作中需要使用到大量的图表来对数据进行管理,但是常常会遇到只有excel表格的图片的情况,需要浪费大量的时间进行手动输入,还可能会因为误操作打错数据导致出现严重的后果。

如果可以通过opencv的图像识别功能来读取图片中的文字,或者更甚者将图片中的表格还原出来,可以有效地大量减少时间以及消耗的精力。

在使用Tesseract开源引擎的帮助下可以减小误差甚至可以达到零误差的标准,这样就可以有效的防止手打时出现的错误被忽略过去。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

在进行二值化时,要考虑到图片中的文字和背景的对比度情况,需要设定足够的阈值来减少背景颜色对二值化的干扰,或者是通过adaptiveThreshold来实现,这个函数最终的两个参数分别是分块的块的大小以及最终加上的那个值,用了这个函数以后可以很好的区分文字部分和非文字部分,避免引入尽量少的噪声部分独立字符在二值化后会分成两个部分,形成两个连通域,为了防止这个现象阻碍到文字的识别,需要通过图像膨胀来将这几个连通域合并。

在输出文字时,需要检测字符串的识别是否有错误,比如S和$是否混淆。

因为是识别的excel图片,需要正确的把表格的实线与excel自带的虚线分开不能识别错误导致输出的表格出现问题。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。

OCR技术是实现文字高速录入的一项关键技术。

在OCR技术中,印刷体文字识别是开展最早,技术上最为成熟的一个。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

寻找合适的图片数据集。

选择出需要识别的区域,进行灰度化,二值化,图像膨胀并简单滤波。

然后进行ROI图像处理。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

第1周:确定选题,完成申请表;第2周:查阅资料,熟悉任务书要求;第3周:查阅资料,准备撰写开题报告;第4周:搜集、查阅相关文献资料,确定总体研究计划;第5周:搭建研发环境,准备实验数据;第6周:实验设计方案A;实验设计方案B(可不做,但需给出说明);第7周:论证设计方案;完成开题报告初稿;第8周:完善开题报告;完成开题;第9周:系统开发:完成功能项1:识别excel截图中的操作区第10周:系统开发:完成功能项2:识别excel截图中操作区内的文字;检查与完善英文翻译;第11周:系统开发:完成功能项3:识别excel截图中菜单栏以及下拉菜单中的文字第12周:系统开发:完成功能项4:将识别的操作区内文字以表格形式打出;完成中期检查;第13周:结合导师意见,完善系统,测试系统成果;第14周:参考研究过程资料,撰写论文,完成论文初稿;完成软硬件验收;第15周:对论文进行修饰和完善,完成论文二稿;完成论文查重;第16周:完成论文定稿,制作PPT,完成答辩。

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。