典型文献
基于RoBERTa的电力领域词汇挖掘模型
文献摘要:
针对中文电力领域词汇挖掘专业难度大、人工成本高的问题,本文利用深度学习技术,设计了一种结合大规模预训练语言模型、双向长短期记忆网络和条件随机场的电力领域词汇挖掘模型.该模型是一种不涉及任何特征工程的完全端到端的神经网络模型,其将RoBERTa模型继续在电力文本语料上预训练以进行领域自适应,同时利用长短期记忆网络整合文本上下文语义信息,并通过条件随机场对预测的标签序列进行约束进而优化实体识别效果.由于现有的电力领域词汇挖掘研究缺乏高质量的标注数据集资源,该文构建了一个具有一定规模的中文电力领域词汇挖掘标注数据集.该文在标注数据集上进行了一系列实验,实验结果验证了模型的有效性.
文献关键词:
电力;词汇挖掘;自然语言处理;命名实体识别;深度学习
中图分类号:
作者姓名:
黄源航;强梦烨;李涛;晏明昊;张涵艺;贾大昌
作者机构:
国网江苏省电力有限公司无锡供电分公司,江苏 无锡214000;字节跳动科技有限公司,广东 深圳518000
文献出处:
引用格式:
[1]黄源航;强梦烨;李涛;晏明昊;张涵艺;贾大昌-.基于RoBERTa的电力领域词汇挖掘模型)[J].电力大数据,2022(06):1-8
A类:
词汇挖掘
B类:
RoBERTa,电力领域,领域词,挖掘模型,文电,人工成本,深度学习技术,大规模预训练语言模型,双向长短期记忆网络,条件随机场,特征工程,端到端,电力文本,语料,领域自适应,上下文语义,语义信息,行约,集资,系列实验,自然语言处理,命名实体识别
AB值:
0.229287
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。