票据信息提取与管理程序的设计与实现开题报告

 2022-11-04 10:22:17

1. 研究目的与意义

在当下的生活中,人们几乎每天都会和票据打交道,各种发票,车票、收据,琳琅满目的票据经常塞满了钱包、抽屉,检索归类统计分析都很不方便。

为了提高工作效率,本课题拟设计一种基于二值化图像的文字区域定位方法,结合通过开源代码工程Tesseract进行光学字符识别,通过将票据信息电子化,实现无纸化、网络化、自动化就可以环保高效地实现票据的信息管理。

本项目使用的Tesseract OCR引擎最先于1985年由HP实验室开始研发,1995年时该引擎已经成为OCR业内最准确的三款识别引擎之一。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

光学字符识别(Optical Character Recognition,OCR)一般指的是电子设备(例如摄像头、扫描仪或数码相机等)检查纸张等所印的文字符号,然后经过检测其明、暗模式,进而确定其形状,最后通过字符识别的方法将这种形状辨识成计算机文字的过程;换而言之,就是先扫描文本资料,然后分析处理其图像文件,最终读取出该版面和文字信息的过程。

本项目的设计要点是根据拍摄的票据图片,进行图像预处理,包括对彩色图像的灰度化以及灰度图像的二值化、选用合适的二值化方法,基于数字形态学的图像去噪处理,倾斜图像的矫正。

在此基础上,使用Tesseract-OCR识别经过预处理的图片内的信息,测试利用它自带的字符库进行识别的效果,分析字符识别的正确率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。

OCR技术是实现文字高速录入的一项关键技术,是计算机视觉研究领域的分支之一。

OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

本课题是基于Tesseract OCR引擎使用python编程语言实现对票据信息的提取,实现电子化管理票据。

主要的研究方法:1.文献研究法:搜集整理相关研究资料,为研究做准备;2.个案研究法:对市面上成功的ocr识别软件升入了解分析,阅读和试运行相关成熟的开源项目3.比较分析法:比较不同框架和编程语言对项目的适用性4.实验研究法:通过实践亲自体验不同的语言与Tesseract OCR引擎的契合度

5. 工作计划

2022.1.01--2022.2.15文献调研:根据指导老师的任务书及课题要求查找相关文献并阅读,每天至少查阅一篇相关文献。

了解课题:项目需要使用的关键技术的核心内容,确定实现项目的方案方法,所使用的的开源资源与编程语言。

确定实施方案后深入学习相关工作的使用和编程语言,为项目做知识储备。

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。