1. 研究目的与意义
作为信息检索与处理的媒介,图像以其信息量大,内容丰富被广泛应用在各种信息处理中。
对图像的处理也成为信息处理的主要工作,特别是对图像中文字与图片的分割与提取成为图像处理的关键。
文档图像版面分析就是通过对文档图像布局进行自动分割,并根据不同区域不同特征的提取与比对,识别出图片区域,文字区域等信息,实现对文档图像的分割与分析。
2. 课题关键问题和重难点
目前算法普遍存在的分割精度不高,算法速度较慢的情况。
对于图像中的表格等版面内对象的识别率也较低。
在版面理解过程中排版的主观性影响很大,导致理解处理后的逻辑关系混乱,对于复杂版面的版面理解也是一直是一个棘手的问题。
3. 国内外研究现状(文献综述)
需要对Windows系统下的常用软件截屏图像进行版面分析,得出菜单区、图片区、文本区等属性。对特定的OFFICE软件、邮件客户端,如word、excel、Outlook等软件分析出文字的行、字符等内容。这就需要我们利用图像分割技术:图像分割图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。为了利用计算机来处理图像,首先必须把连续的图像变换成离散的数字图像。一幅数字图像f (x ,y) 是在其空间坐标和灰度上都离散化,并进行数字编码的图像。图像f (x ,y)在空间坐标上的离散化称为采样,图像f (x , y) 在灰度上的离散化称为量化。经过采样和量化,图像f (x , y) 可以用一个矩阵来表示,取行和列的交点标出图像的每一个像素,每一个像素对应一个灰度值。为实现数字化,灰度值必须离散。一般量化与采样数值都取为2 的整数幕。
参考文献
[1]张志斌,中文版面分析的研究【D】。河北:河北大学,2002.
4. 研究方案
图1给出了版面分析系统的工作流程图,通过对各个流程环节的分析,旨在通过对游程标记算法与连通域法相结合,针对文档图像自动计算游程距离对不同图像做出子适应的游程平滑,填充空白间隙使版面不同区域形成连通域通过对分割区域的特征分析,辨析各区域归属类型。主要识别出图片与表格正文段落和标题及其他类型以方便对标题进行文字检测与识别,或根据图片进行匹配识别。
图像载入--->图像预处理--->版面分割--->区域特征匹配
整个版面分析的流程分为对载入图像的灰度化处理,背景估计,二值化处理,降噪处理,游程距离计算,游程平滑处理,连通域标记,版面分割,区域特征计算,区域类型分析等。
5. 工作计划
第1~3周:熟悉课题,查阅相关文献资料,明确研究内容,了解研究所需的材料,确定方案,完成开题报告;
第4~7周:完成英文文献翻译,进一步完善研究目标;完成系统设计
第8~11周:程序实施和调试阶段;
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。