典型文献
融合多特征的专利功效短语识别
文献摘要:
专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环.针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法.特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合.字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量.在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列.该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响.实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量.在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F1值达到91.15%,识别效果优于现有方法,证明了该方法的有效性.
文献关键词:
专利功效短语;多特征融合;神经网络;注意力机制
中图分类号:
作者姓名:
罗艺雄;吕学强;游新冬
作者机构:
北京信息科技大学网络文化与数字传播重点实验室,北京100101
文献出处:
引用格式:
[1]罗艺雄;吕学强;游新冬-.融合多特征的专利功效短语识别)[J].中文信息学报,2022(12):139-148
A类:
专利功效短语,单词级特征
B类:
短语识别,利文,关键信息,构建技术,技术功效,有功,特征根,字符级特征,拼音,五笔,Word2Vec,BERT,行向量,向量化,注意力机制,向量表示,特征向量,嵌入层,Transformer,解码,新能源汽车,汽车领域,语料,特征组合,优特,字向量,BiLSTM+CRF,多特征融合
AB值:
0.228626
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。