典型文献
基于层次化表示的电力文本命名实体识别和匹配算法
文献摘要:
针对电力领域科技项目申请书评审工作中存在的项目与专家精准匹配难的问题,提出一种基于层次化语义表示的电力文本命名实体识别模型(Attention-RoBerta-BiLSTM-CRF,ARBC)以及基于语义-象形双特征空间映射的电力项目与电力专家的匹配策略.ARBC模型包括词嵌入模块、双向长短时记忆网络BiLSTM模块以及条件随机场(CRF)模块.其中,词嵌入模块同时使用了电力文本词语、句子和文档3个层面的信息.具体地,首先提取基于RoBerta预训练模型的词嵌入向量,进而通过引入文档层面基于词频-逆文档频率值的注意力机制增强句子的上下文表征能力,最终将词嵌入与句子嵌入进行线性加权融合,形成词语的层次化表征向量.在ARBC模型输出电力文本命名实体基础之上,进一步提出基于语义-象形双特征空间映射的项目文本与领域专家的实体匹配策略,最终实现项目与专家的有效精准匹配任务.实验结果表明,ARBC模型在2000篇电力项目摘要文本命名实体识别测试集上获得83%的F1值,显著高于基于Bert和RoBerta的文本表示方法.此外,基于双特征空间映射的实体匹配策略在电力文本与电力专家匹配任务中准确率达85%.
文献关键词:
层次化表示;命名实体识别;专家匹配;电力文本
中图分类号:
作者姓名:
杨政;蔡迪;李慧斌
作者机构:
云南电网有限责任公司电力科学研究院,云南 昆明 650217;西安交通大学数学与统计学院,陕西 西安 710049
文献出处:
引用格式:
[1]杨政;蔡迪;李慧斌-.基于层次化表示的电力文本命名实体识别和匹配算法)[J].计算机与现代化,2022(05):75-81
A类:
层次化表示,ARBC
B类:
电力文本,本命,命名实体识别,匹配算法,电力领域,科技项目,项目申请,申请书,书评,评审工作,精准匹配,识别模型,Attention,RoBerta,BiLSTM,CRF,象形,特征空间,空间映射,电力项目,匹配策略,词嵌入,双向长短时记忆网络,条件随机场,词语,句子,文档,预训练模型,嵌入向量,词频,注意力机制,上下文,表征能力,终将,线性加权,加权融合,成词,模型输出,领域专家,实体匹配,摘要,测试集,文本表示,表示方法,专家匹配
AB值:
0.296332
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。