典型文献
结合统计特征和图模型的半监督式中文关键短语抽取方法
文献摘要:
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义.然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究.为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率.对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果.
文献关键词:
中文关键短语抽取;半监督式方法;图模型;统计特征
中图分类号:
作者姓名:
谢海华;陈雪飞;都仪敏;吕肖庆;汤帜
作者机构:
北大方正信息产业集团有限公司 数字出版技术国家重点实验室,北京 100871;北京雁栖湖应用数学研究院,北京 101407;北京大学 王选计算机研究所,北京 100871
文献出处:
引用格式:
[1]谢海华;陈雪飞;都仪敏;吕肖庆;汤帜-.结合统计特征和图模型的半监督式中文关键短语抽取方法)[J].中文信息学报,2022(04):57-65
A类:
中文关键短语抽取,半监督式方法
B类:
统计特征,图模型,文档,信息检索,文本处理,取模,预训练语言模型,少算,训练数据,出图,迭代计算,重要度,比基,提升效果
AB值:
0.212238
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。