1. 研究目的与意义
最近,我们生成和收集数据的能力迅速增加。
大多数商业产品广泛使用条形码,许多商业和政府交易的电脑化以及数据收集工具的进步为我们提供了大量的数据。
数百万数据库已被用于商业管理,政府广告管理,科学和工程数据管理以及许多其他应用程序。
2. 课题关键问题和重难点
关键问题:设计软件系统,实现对给顶网页(或网址)对应页面中表格数据的提取,主要包括以下功能: (1)检测判断网页中是否有表格,并判断是否满足关系模式(即表格结构由m行,n列组成,每行有相同的字段),若无满足条件的表格,显示提示信息。
(2)若网页内有符合关系模式的表格,提示网页中有表格,并显示存在的表格数目,提示用户是否加载每个表格内容。
(3)提取网页中每个表格内容(每行每列的数值),在数据库中为每个表格生成对应的关系表,将每个表格的内容存入数据库对应关系表中。
3. 国内外研究现状(文献综述)
1.研究背景,目的和意义①研究背景:互联网汇聚了海量的网页,网页中存在很多关系表格,网页脚本文件格式不能支持便捷的网页表格数据的提取。
②研究目的:实现web页面中关系表提取软件系统,解决网页脚本文件格式不能支持便捷的网页表格数据的提取的问题。
2.国内外研究综述2.1 Web表格概述Web页面中表格的主要形式有 HTML、PDF、图片 、TXT、XML等 , 目前 Web表格信息抽取的研究对象主要为HTML表格 。
表格由多个单元格组成。
Web页面中规范的表格通常包含在标记
与这些标记元素虽然能揭示一部分结构信息,但实际的Web表格更为复杂:例如表格标题和表项标题可能是用标记显示的,
元素仅仅用作页面布局使用等。Web表格依据其显示特点可以分为 :(1)嵌套表格:表格以互相嵌套的方式出现 ,类似于网页的框架结构 。
(2)假表格与真表格:如商业站点广告、导航栏或其他站点的链接,不是为了表示真正的数据,而是为了让页面美观、易读 ,这种表格称之为假表格;称真正有实际数据的表格为真表格。
(3)分段表格:为提升页面的视觉效果 ,网页设计者将一个完整的表格分割成几个片断显示,这样的表格便是分段表格 。
(4)跨页表格:同分段表格类似,不同的是将一个完整的表格在不同的页面中显示 。
(5)无
- 、
- 、、
等表示的表格。
依据表格的结构类型,即属性-值对的展开方式,可分为横向(Horizontal)和纵向(Vertical)两类,也称之为按行方向展开(Row-wise)型和按列方向展开(Column-wise)型,特殊情况下还有混合型(Mixwise)的展开方式。
2.2 Web表格信息抽取概述信息抽取(Information Extraction)是指从各种不同的文本里定位、识别和提取出需要的信息点,表示成一种统一的结构化的形式。
主要通过召回率、准确率和 F值 (F-Measure)来衡量信息抽取系统的性能 。
Web表格信息抽取是指从 Web表格中抽取语义一致性的、结构化表示的数据和知识。
目前Web表格信息抽取主要有3种方法:基于Wrapper学习的方法 ,基于表格结构分析的方法和基于本体的方法 。
(1)利用归纳学习方法生成抽取规则。
可以利用自动化、半自动化的手段来进行抽取器的构造工作(例如通过样例学习等),如Lerman等人和Cohen等人通过基于实例的学习算法构造包装器,学习规则的定界(Token)由 HTML标记或关联文本组成 。
虽然抽取效果良好 ,但没有改变抽取器对页面结构的依赖,扩展性和可重用性不强 。
(2)通过分析表格结构,将HTML表格转化为一种逻辑结构表格来抽取单元格内容。
依据网页分析的描述方式,可分为基于树结构(Tree)和基于视觉线索(Visual Clues)两种抽取模式。
前者利用 DOM解析器等工具将网页解析成树状结构,抽取和分析
- 等特定标记对应的结点;后者利用CSS2 Visual Box Model(盒状模型 )等工具对Web文档进行解析,依据解析结果中的视觉信息 (Visual Information)及空间关系 (Spatial Relations)对 Web表格的信息进行抽取 。
(3)面向具体领域,在分析表结构的基础上 ,依据领域本体中对表格结构和内容的定义产生抽取规则 。
2.3 Web表格信息抽取过程Web表格信息抽取过程包括 Web表格识别 (Table Recognition)和 Web表格内容抽取 (Table Extraction)。
Web表格识别过程是从 Web页中定位目标表格区域并分析表格结构 ;Web表格内容抽取过程则是从表格中提取属性值对并以结构化表示 。
台湾学者Chen等人首次正式研究了Web表格抽取的过程,包括表格定位、表格结构识别以及 属性值对的提取。
BYU研究小组的 Embley等人将该过程划分为表格理解、数据整合和信息抽取几个部 ,基于本体来完成对 Web表格的定位、识别和抽取。
Tengli等人的系统通过对样本表格属性内容的词汇学习及启发式规则来对表格进行定位、结构识别和属性值对的提取。
Pivk等人将Web表格抽取分析划分为4个层次:物理层、结构层、功能层和语义层,分别对 Web表格进行规整 (Normalization)与定位、结构识别、功能定义和语义分析。
Zhai等人的方法包括两步:利用标记字符的编辑距离 (String Edit Distance)等视觉信息识别Web页面中的数据记录区域 ;利用基于树匹配 (Tree Matching)的部分对齐技术(PartialAlingmentTechnique)从数据记录区域中对齐和抽取数据项。
Gatterbauer等人提出的VENTex(VisualizedElementNodesTableEXtraction)方法则利用 Web表格的拓扑结构、样式等视觉线索,基于CSS2 VisualBoxModel构造启发式规则,该方法完全独立于表格所属领域,相应过程包括Web表格抽取和内容整合。
吴扬扬等人提出了一种基于语义和数据特征的方法,包括 Web列表识别和关系元组抽取。
林科锵、林琳在 BYU研究小组的研究基础上,将表格处理过程分解为表格的定位、表格结构识别以及表格内容抽取3个步骤,并给出一个基于本体的通用Web表格信息抽取系统(UWTIES)模型。
目前,Web表格信息抽取技术应用的范围主要包括 :(1)搜索引擎:与普通文本不同,Web表格的内容文字有特定的空间关系,利用关键词搜索时难以实现准确匹配。
Web表格信息抽取技术可实现对Web页中表格的理解,改善搜索效果。
如CNKI数字搜索项目中,利用 Web表格信息抽取技术对中国各地区政府统计网站中的表格进行信息抽取,抽取结果以数值知识元形式表示,满足用户数字搜索的特定需求 。
(2)本体学习:手工构建本体费时费力,因而有研究者对本体的自动构建进行研究。
Web表格语义信息丰富且结构完整,有利于本体的自动学习。
BYU研究小组的TANGO(Table Analysis for Generating Ontologies)系统就是一个从Web表格信息中生成领域本体的应用项目 ,基本过程包括 :①理解Web表格的结构和概念内容 ;②发现概念内容间的相互约束关系,生成小型本体(Mini-Ontology);③利用已构建的应用本体对小型本体进行概念匹配,发现本体内部的映射;④将小型本体合并到应用本体。
(3)Web文档聚类和分类:Web表格信息抽取技术应用于Web文档聚类和分类,不仅考虑到文档内容的文字特征,还顾及到结构特征和表示形式,使得结果更为准确,如TRSInfoRadar。
(4)Web数据挖掘 :Web表格信息抽取技术最初的研究便是在 Web表格数据挖掘的研究中出现的。
许多垂直搜索引擎如酷讯生活搜索、Google生活搜索就是从大量中文网页表格中抽取住房、工作职位、火车票、机票等分类信息,提供专项搜索 。
此外,Web表格信息抽取技术在知识导航、机器翻译、自动文摘及数据库深加工等领域均有重大的应用价值。
参考文献:[1].王能斌. 数据库系统教程.电子工业出版社,2002.[2].丁宝康.数据库实用教程.清华大学出版社,2001.[3].韩家炜(Han,J.)等著,范明 等译. 数据挖掘:概念与技术[M],机械工业出版社.2012.[4].陈俊洁. web信息提取技术与应用的研究[J]. 数字技术与应用,2017(09):114 118.[5].李文. Web信息提取技术研究与应用分析[J]. 电子技术与软件工程,2015(03):15.[6].赵洪,肖洪,薛德军,师庆辉. Web表格信息抽取研究综述[J]. 现代图书情报技术,2008(03):24-31.[7].秦振海,谭守标,徐超. 基于Web的表格信息抽取研究[J]. 计算机技术与发展,2010,20(02):217-220.[8].鲍仕壮,徐超,谭守标,李正平. Web页面表格内容的提取方法研究[J]. 软件导刊,2008(09):65-67.[9].程文涛,师雪霖. 以本体为指导的Web网页信息抽取方法[J]. 北京化工大学学报(自然科学版),2011,38(04):134-139.[10].吴扬扬, 陈锻生.识别和抽取 Web列表中的关系信息 [ J] .计算机科学, 2003, 31(6):86-88[11].林琳.基于Ontology的 Web表格内容抽取的研究与实现[ D] .成都:电子科技大学, 2006[12].李保利, 陈玉忠, 俞士汶.信息抽取研究综述[ J] .计算机工程与应用, 2003, 39(10):1-5, 66.[13].王放, 顾宁, 吴国文.基于本体的 Web表格信息抽取 [ J] .小型微型计算机系统, 2003, 24(12):2142-2146.
4. 研究方案
(1)对本课题的系统的需求和难点进行分析,了解本系统研究的意义。
(2)明确总体需求,确定系统大致的开发框架及应用技术。
(3)设计数据库,建立系统流程图。
5. 工作计划
1-2周:课题需求分析与技术准备,完成开题报告3-4周:系统架构与主要功能模块规划设计5-9周:原型系统实现10-11周:系统测试与完善12-15周:毕业设计论文撰写