首站-论文投稿智能助手
典型文献
基于文本词特征加权LDA的疾病表征提取方法
文献摘要:
从结构复杂多样的电子病历文本中提取出疾病表征词,是电子病历文本研究与应用的关键环节.LDA模型可以实现对文本信息的有效提取,但标准LDA(latent Dirichlet allocation)及其相关改进模型在提取疾病表证词时针对性较弱、精确率较低.该文提出了FW-LDA(feature weighting LDA)模型,针对中文电子病历文本的数据特征,降低非任务相关词的共现频率,在标准LDA模型的基础上引入了词特征加权,以实现对疾病表证词的针对性提取.通过分析心血管疾病数据的特点,形成了相适应的词性、词长和词义特征加权计算公式,构建了对应的任务侧重和非任务侧重的外部语义词库,并通过实验验证了词特征加权对疾病表征词提取任务的影响程度.与LDA模型相比,在主题数值小于30时,FW-LDA模型的主题一致性有显著提升;在主题数值范围[5,65]上,FW-LDA模型的疾病表征词提取平均精确率提升了48.5%.
文献关键词:
电子病历;疾病表征;词特征;加权;LDA模型
作者姓名:
余肖生;沈胜;陈鹏
作者机构:
三峡大学 计算机与信息学院,湖北 宜昌 443002
引用格式:
[1]余肖生;沈胜;陈鹏-.基于文本词特征加权LDA的疾病表征提取方法)[J].计算机技术与发展,2022(05):7-14
A类:
B类:
词特征,特征加权,LDA,疾病表征,表征提取,文本研究,文本信息,有效提取,latent,Dirichlet,allocation,改进模型,表证,证词,时针,精确率,FW,feature,weighting,中文电子病历,数据特征,心血管疾病,词性,词长,词义,词库,数值范围,取平
AB值:
0.351239
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。