FAILED
首站-论文投稿智能助手
典型文献
融合词性位置的无监督老挝语实体关系抽取
文献摘要:
老挝语属于低资源语言,在自然语言处理方面的研究较为薄弱,针对相对复杂的实体关系抽取技术暂时还没有相关研究.因此,该文通过研究老挝语的语言特点,提出了一种融合词性位置的无监督老挝语实体关系抽取方法.首先,通过爬虫技术在中国国际广播电台网(China Radio International,CRI)上爬取老挝语新闻3000篇,其次,对爬取的新闻文本进行预处理,包括分句,分词,命名实体识别以及词性标注;然后,使用融合了距离特征、TF-IDF特征和词性位置特征的词的分布式表示上下文特征,将其作为聚类模型的输入;之后,使用改进的KANN-DBSCAN聚类模型在预处理后的语料集上进行聚类试验;最后,采用优化的DCM方法对聚类结果进行关系标注,选出簇的关系标签,最终得到关系三元组.实验结果表明,该文提出的方法在低资源语言老挝语上达到了不错的效果,平均准确率达到了 60.43%.
文献关键词:
低资源;关系抽取;词性位置;判别类型匹配;聚类模型
作者姓名:
马霄飞;周兰江;周蕾越
作者机构:
昆明理工大学信息与自动化学院,昆明650500;昆明理工大学津桥学院电子与信息工程学院,昆明650160
引用格式:
[1]马霄飞;周兰江;周蕾越-.融合词性位置的无监督老挝语实体关系抽取)[J].小型微型计算机系统,2022(11):2263-2270
A类:
词性位置,中国国际广播电台,判别类型匹配
B类:
无监督,老挝语,实体关系抽取,低资源语言,自然语言处理,暂时,语言特点,爬虫技术,台网,China,Radio,International,CRI,上爬,爬取,新闻文本,分句,分词,命名实体识别,词性标注,距离特征,TF,IDF,位置特征,上下文特征,聚类模型,KANN,DBSCAN,语料,DCM,三元组,上达,不错,平均准确率
AB值:
0.289467
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。