典型文献
融合句法结构和词义信息的政策文本关联挖掘方法研究
文献摘要:
[目的]进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法.[方法]融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征.[结果]在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了 22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联.[局限]在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性.[结论]所提方法效果较好,功能较强,能有效揭示政策文本内容关联程度,可为政策文本量化研究提供新的研究视角和工具方法.
文献关键词:
政策文本关联;依存句法分析;词嵌入模型
中图分类号:
作者姓名:
武楷彪;郎宇翔;董瑜
作者机构:
中国科学院文献情报中心 北京100190;中国科学院大学经济与管理学院图书情报与档案管理系 北京100190
文献出处:
引用格式:
[1]武楷彪;郎宇翔;董瑜-.融合句法结构和词义信息的政策文本关联挖掘方法研究)[J].数据分析与知识发现,2022(05):20-33
A类:
政策文本关联
B类:
句法结构,词义,挖掘方法,文本语义,语义关联,依存句法分析,词嵌入模型,从句,句子,文本内容,抽取规则,关联程度,测试数据,TF,IDF,余弦相似度,法功能,用词,细微,微差,语义信息,信息挖掘,开源,自主训练,政策领域,领域词向量,高准确度,内容关,政策文本量化,量化研究,工具方法
AB值:
0.28184
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。