首站-论文投稿智能助手
典型文献
基于深度学习与统计信息的领域术语抽取方法研究
文献摘要:
[背景]及时掌握领域术语有助于动态把握领域发展方向,揭示领域的核心知识与研究热点.[目的]为提高领域术语抽取准确率,提出一种基于深度学习和统计信息的领域术语抽取方法.[方法]首先,对领域中文专利文本进行字嵌入表示,基于B E RT(Bidirectional Encoder Representations from Transformers)获取字符级的向量表征作为模型的输入;然后,利用BiLSTM-CRF(Bidirectional Long Short Term Memory-Conditional Random Field)深度学习模型提取序列化文本的语义特征,得到领域术语标注序列;最后,综合计算复合结构术语的互信息和左右熵,并结合领域知识库对抽取结果进行校正.[结果]模型在"盐湖提锂"领域进行实验,结果表明BERT-BiLSTM-CRF模型抽取该领域术语准确率达到77.33%,而对抽取结果进行校正进一步将准确率提升了3.68%,是一种有效的领域术语抽取方法.
文献关键词:
领域术语抽取;BERT;双向长短时记忆网络;条件随机场;互信息;左右信息熵
作者姓名:
李贞贞;钟永恒;王辉;刘佳;孙源
作者机构:
中国科学院武汉文献情报中心,湖北 武汉 430071;科技大数据湖北省重点实验室,湖北 武汉 430071
引用格式:
[1]李贞贞;钟永恒;王辉;刘佳;孙源-.基于深度学习与统计信息的领域术语抽取方法研究)[J].数据与计算发展前沿,2022(02):87-98
A类:
领域术语抽取
B类:
统计信息,动态把握,核心知识,高领,利文,字嵌入,嵌入表示,Bidirectional,Encoder,Representations,from,Transformers,取字,字符,向量表征,BiLSTM,CRF,Long,Short,Term,Memory,Conditional,Random,Field,深度学习模型,提取序列,序列化,语义特征,综合计算,复合结构,互信息,合领,领域知识,知识库,盐湖提锂,BERT,模型抽取,正进,准确率提升,双向长短时记忆网络,条件随机场,左右信息熵
AB值:
0.44424
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。