首站-论文投稿智能助手
典型文献
基于迁移学习和集成学习的医疗文本分类
文献摘要:
针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM).该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的文本动态字向量表示.然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT预训练语言模型在医学领域的文本语义增强.在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到Bi-LSTM-CNN集成学习模块,进一步提取医学文本内容的重要信息特征.最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类.实验结果表明,通过迁移学习和集成学习的TLCM文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体F1值达到了91.8%.
文献关键词:
迁移学习;集成学习;ALBERT;Bi-LSTM-CNN;医疗文本;健康问句
作者姓名:
郑承宇;王新;王婷;徐权峰
作者机构:
云南民族大学 数学与计算机科学学院,云南 昆明 650500
引用格式:
[1]郑承宇;王新;王婷;徐权峰-.基于迁移学习和集成学习的医疗文本分类)[J].计算机技术与发展,2022(04):28-33
A类:
TLCM
B类:
迁移学习,集成学习,医疗文本,文本分类,文本语义,语义稀疏,分类算法,Multi,ALBERT,Lite,Transfomer,语料库,开训,字向量,向量表示,医学领域,模型微调,微调技术,预训练语言模型,语义增强,习得,增强模型,模型输入,Bi,学习模块,医学文本,文本内容,重要信息,信息特征,交叉熵损失函数,损失函数构造,文本多标签分类,分类器,分类性能,健康问句,句数
AB值:
0.370738
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。