典型文献
基于迁移学习的铝硅合金文献的文本识别
文献摘要:
近年来,材料基因组计划(material genome initiative,MGI)已成为全球热点.数据源的缺乏和数据存储方法的不规范导致材料领域缺乏可用于机器学习模型训练的结构化数据,这成为了研究人员对材料性能进行预测的瓶颈.随着材料科学的不断发展,材料领域文本中包含的大量信息,已成为材料领域研究人员应用机器学习的主要数据来源,如何获取大量有效的材料数据是成为现阶段的一项具有挑战意义的工作.本论文采用自然语言处理技术从铝硅合金材料文献中获取有效数据.命名实体识别是自然语言处理中一项重要的子任务,旨在识别文本中具有特定意义的实体.具体研究方法是从材料科学文献中选择五类实体,手工标注构建了铝硅合金材料实体识别数据集,包括5347个句子,2835个实体.为了减少自然语言处理任务对标注语料的依赖,利用迁移学习将语言模型预训练后应用到特定领域任务中;结合实体特征,基于ALBERT(A Lite BERT)预训练语言模型与条件随机场(conditional random fields,CRF)进行联合建模,并将预训练模型基于主动学习应用于合金材料实体识别.在基于少量标注的训练集样本下,结合主动学习,使得模型的F1值、精确率、召回率分别提高了0.61%,2.68%,0.29%.实验证明结合预训练和主动学习能够进一步减少实体识别任务模型对标注数据的依赖及人工标注的成本.论文研究成果可解决材料数据孤岛问题,改善材料基因组机器学习一直处于小规模数据集的困境,将促进铝硅合金的研发进程,为材料基因组新材料设计提供科学依据.
文献关键词:
材料基因组;文本识别;材料命名实体识别;迁移学习;预训练语言模型
中图分类号:
作者姓名:
刘英莉;李武亮;牛琛;么长慧;尹建成;沈韬
作者机构:
昆明理工大学 云南省计算机技术应用重点实验室,云南 昆明 650500;昆明理工大学 信息工程与自动化学院,云南 昆明 650500;昆明理工大学 材料科学与工程学院,云南 昆明 650500
文献出处:
引用格式:
[1]刘英莉;李武亮;牛琛;么长慧;尹建成;沈韬-.基于迁移学习的铝硅合金文献的文本识别)[J].材料科学与工程学报,2022(04):640-645,667
A类:
MGI,材料命名实体识别
B类:
迁移学习,铝硅合金,金文,文本识别,材料基因组计划,material,genome,initiative,全球热点,数据源,数据存储,存储方法,材料领域,机器学习模型,模型训练,结构化数据,材料性能,材料科学,要数,数据来源,战意,本论,自然语言处理技术,合金材料,有效数据,子任务,具体研究,科学文献,五类,别数,句子,语料,特定领域,实体特征,ALBERT,Lite,预训练语言模型,条件随机场,conditional,random,fields,CRF,联合建模,预训练模型,主动学习,学习应用,训练集,精确率,召回率,任务模型,数据孤岛,小规模数据集,新材料设计
AB值:
0.339616
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。