典型文献
融合字形信息的头尾指针网络术语抽取模型
文献摘要:
武器装备领域中包含一定数量的长术语,目前主流的术语抽取模型无法对其很好地识别.针对这一问题,提出使用融合字形信息的头尾指针网络模型来抽取该领域术语.首先使用基于转换器的双向编码器表示(bidirectional encoder representation from transformers,BERT)预训练模型得到字符的向量表示,拼接字符的五笔编码,从字形信息的角度增强模型的字符表示;其次使用头尾指针网络直接对术语边界进行解码,以更好地识别长术语;最后使用Focal Loss作为损失函数,缓解由于术语占总词汇比例不高以及使用头尾指针网络作为解码器带来的标签不平衡问题.实验证明,所提模型在武器装备领域术语抽取中F1值为91.25%,抽取效果较主流模型有所提升.
文献关键词:
武器装备领域;术语抽取;BERT;五笔编码;头尾指针网络;Focal Loss
中图分类号:
作者姓名:
李育贤;吕学强;游新冬
作者机构:
北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
文献出处:
引用格式:
[1]李育贤;吕学强;游新冬-.融合字形信息的头尾指针网络术语抽取模型)[J].北京信息科技大学学报(自然科学版),2022(03):74-81
A类:
头尾指针网络,五笔编码,术语边界,领域术语抽取
B类:
字形,取模,武器装备领域,出使,转换器,双向编码器表示,bidirectional,encoder,representation,from,transformers,BERT,预训练模型,字符,向量表示,拼接,接字,增强模型,Focal,Loss,损失函数,解码器,标签不平衡,不平衡问题,流模型
AB值:
0.22433
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。