首站-论文投稿智能助手
典型文献
连续时间区间内的频繁词序列挖掘算法
文献摘要:
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求.利用基于频率树的快速频繁词序列挖掘算法(TS_Mining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度.针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS_Pruning),通过减少频率树的扫描范围进一步提高挖掘效率.实验结果表明,TS_Mining与TS_Pruning算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率.
文献关键词:
频繁词序列;后缀树;数据挖掘;频繁项集;热点话题检测
作者姓名:
王璐;刘晓清;何震瀛
作者机构:
复旦大学 软件学院,上海 200441;复旦大学 计算机科学技术学院,上海 200433
文献出处:
引用格式:
[1]王璐;刘晓清;何震瀛-.连续时间区间内的频繁词序列挖掘算法)[J].计算机工程,2022(02):79-85,91
A类:
频繁词序列,后缀树,热点话题检测
B类:
连续时间,序列挖掘,挖掘算法,中频,短语,文本内容,时间复杂度,TS,Mining,树线,线性构造,树型索引,索引结构,询问,剪枝,Pruning,运行时间,Apriori,数量级,频繁项集
AB值:
0.235548
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。