首站-论文投稿智能助手
典型文献
基于DOM树与模板的自适应网络信息抽取方法
文献摘要:
针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法.以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法.该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则.实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能.
文献关键词:
信息抽取;自适应;DOM树;模板
作者姓名:
柏志安;廖健;曾剑平
作者机构:
上海交通大学医学院附属瑞金医院信息中心 上海 200025;复旦大学计算机科学技术学院 上海 200433
引用格式:
[1]柏志安;廖健;曾剑平-.基于DOM树与模板的自适应网络信息抽取方法)[J].计算机应用与软件,2022(08):15-20,81
A类:
B类:
DOM,自适应网络,信息抽取,复出,文本内容,定模,同父,邻近结构,选集,抽取规则,生成方法,论坛网,网页,自动生成,同论,页面,改版,有效生成
AB值:
0.39048
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。