等特定标记对应的结点;后者利用CSS2 Visual Box Model(盒状模型 )等工具对Web文档进行解析,依据解析结果中的视觉信息 (Visual Information)及空间关系 (Spatial Relations)对 Web表格的信息进行抽取 。(3)面向具体领域,在分析表结构的基础上 ,依据领域本体中对表格结构和内容的定义产生抽取规则 。
2.3 Web表格信息抽取过程Web表格信息抽取过程包括 Web表格识别 (Table Recognition)和 Web表格内容抽取 (Table Extraction)。
Web表格识别过程是从 Web页中定位目标表格区域并分析表格结构 ;Web表格内容抽取过程则是从表格中提取属性值对并以结构化表示 。
台湾学者Chen等人首次正式研究了Web表格抽取的过程,包括表格定位、表格结构识别以及 属性值对的提取。
BYU研究小组的 Embley等人将该过程划分为表格理解、数据整合和信息抽取几个部 ,基于本体来完成对 Web表格的定位、识别和抽取。
Tengli等人的系统通过对样本表格属性内容的词汇学习及启发式规则来对表格进行定位、结构识别和属性值对的提取。
Pivk等人将Web表格抽取分析划分为4个层次:物理层、结构层、功能层和语义层,分别对 Web表格进行规整 (Normalization)与定位、结构识别、功能定义和语义分析。
Zhai等人的方法包括两步:利用标记字符的编辑距离 (String Edit Distance)等视觉信息识别Web页面中的数据记录区域 ;利用基于树匹配 (Tree Matching)的部分对齐技术(PartialAlingmentTechnique)从数据记录区域中对齐和抽取数据项。
Gatterbauer等人提出的VENTex(VisualizedElementNodesTableEXtraction)方法则利用 Web表格的拓扑结构、样式等视觉线索,基于CSS2 VisualBoxModel构造启发式规则,该方法完全独立于表格所属领域,相应过程包括Web表格抽取和内容整合。
吴扬扬等人提出了一种基于语义和数据特征的方法,包括 Web列表识别和关系元组抽取。
林科锵、林琳在 BYU研究小组的研究基础上,将表格处理过程分解为表格的定位、表格结构识别以及表格内容抽取3个步骤,并给出一个基于本体的通用Web表格信息抽取系统(UWTIES)模型。
目前,Web表格信息抽取技术应用的范围主要包括 :(1)搜索引擎:与普通文本不同,Web表格的内容文字有特定的空间关系,利用关键词搜索时难以实现准确匹配。
Web表格信息抽取技术可实现对Web页中表格的理解,改善搜索效果。
如CNKI数字搜索项目中,利用 Web表格信息抽取技术对中国各地区政府统计网站中的表格进行信息抽取,抽取结果以数值知识元形式表示,满足用户数字搜索的特定需求 。
(2)本体学习:手工构建本体费时费力,因而有研究者对本体的自动构建进行研究。
Web表格语义信息丰富且结构完整,有利于本体的自动学习。
BYU研究小组的TANGO(Table Analysis for Generating Ontologies)系统就是一个从Web表格信息中生成领域本体的应用项目 ,基本过程包括 :①理解Web表格的结构和概念内容 ;②发现概念内容间的相互约束关系,生成小型本体(Mini-Ontology);③利用已构建的应用本体对小型本体进行概念匹配,发现本体内部的映射;④将小型本体合并到应用本体。
(3)Web文档聚类和分类:Web表格信息抽取技术应用于Web文档聚类和分类,不仅考虑到文档内容的文字特征,还顾及到结构特征和表示形式,使得结果更为准确,如TRSInfoRadar。
(4)Web数据挖掘 :Web表格信息抽取技术最初的研究便是在 Web表格数据挖掘的研究中出现的。
许多垂直搜索引擎如酷讯生活搜索、Google生活搜索就是从大量中文网页表格中抽取住房、工作职位、火车票、机票等分类信息,提供专项搜索 。
此外,Web表格信息抽取技术在知识导航、机器翻译、自动文摘及数据库深加工等领域均有重大的应用价值。
参考文献:[1].王能斌. 数据库系统教程.电子工业出版社,2002.[2].丁宝康.数据库实用教程.清华大学出版社,2001.[3].韩家炜(Han,J.)等著,范明 等译. 数据挖掘:概念与技术[M],机械工业出版社.2012.[4].陈俊洁. web信息提取技术与应用的研究[J]. 数字技术与应用,2017(09):114 118.[5].李文. Web信息提取技术研究与应用分析[J]. 电子技术与软件工程,2015(03):15.[6].赵洪,肖洪,薛德军,师庆辉. Web表格信息抽取研究综述[J]. 现代图书情报技术,2008(03):24-31.[7].秦振海,谭守标,徐超. 基于Web的表格信息抽取研究[J]. 计算机技术与发展,2010,20(02):217-220.[8].鲍仕壮,徐超,谭守标,李正平. Web页面表格内容的提取方法研究[J]. 软件导刊,2008(09):65-67.[9].程文涛,师雪霖. 以本体为指导的Web网页信息抽取方法[J]. 北京化工大学学报(自然科学版),2011,38(04):134-139.[10].吴扬扬, 陈锻生.识别和抽取 Web列表中的关系信息 [ J] .计算机科学, 2003, 31(6):86-88[11].林琳.基于Ontology的 Web表格内容抽取的研究与实现[ D] .成都:电子科技大学, 2006[12].李保利, 陈玉忠, 俞士汶.信息抽取研究综述[ J] .计算机工程与应用, 2003, 39(10):1-5, 66.[13].王放, 顾宁, 吴国文.基于本体的 Web表格信息抽取 [ J] .小型微型计算机系统, 2003, 24(12):2142-2146.