首站-论文投稿智能助手
典型文献
基于异质信息网的短文本特征扩充方法
文献摘要:
随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上.针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题.基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征.最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果.通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量.
文献关键词:
异质信息网络;短文本扩充方法;短文本匹配;知识库;元路径
作者姓名:
吕晓锋;赵书良;高恒达;武永亮;张宝奇
作者机构:
河北师范大学计算机与网络空间安全学院 石家庄050024;供应链大数据分析与数据安全河北省工程研究中心 石家庄050024;河北省网络与信息安全重点实验室 石家庄050024;河北师范大学软件学院 石家庄050024;石家庄铁道大学信息科学与技术学院 石家庄050043
文献出处:
引用格式:
[1]吕晓锋;赵书良;高恒达;武永亮;张宝奇-.基于异质信息网的短文本特征扩充方法)[J].计算机科学,2022(09):92-100
A类:
HTE,短文本扩充方法
B类:
文本特征,计算机技术,深度融入,文本信息,遍布,外部知识,Wikipedia,知识库,Freebase,实体类别,实体信息,文本主题,相似性度量,短文本匹配,匹配算法,文本数据,相似度度量,BERT,多种类型,数据稀疏性,无监督,异质信息网络,元路径
AB值:
0.203867
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。