基于特征词配对的德语文本聚类方法研究|简梓炜;于娟 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于特征词配对的德语文本聚类方法研究

文献摘要：

[目的/意义]提出一种适用于德语文本处理的文本相似度计算方法,填补了国内外德语文本聚类研究的空缺.[方法/过程]通过词语提取和特征词选择将每个德语文本表示为一个特征词的集合,寻找集合间配对的特征词对,由特征词对的匹配度得到文本间的相似度.[结果/结论]基于多个德语数据集的实验结果表明,相比于已有方法,本文提出的基于特征词配对的德语文本聚类方法提升了约5％的NMI值和约6％的Purity值.基于特征词配对的相似度计算方法能够保留更多的文本信息,从而进一步提升德语文本聚类的性能.

文献关键词：

德语;文本聚类;特征词;文本相似度

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 自动推理、机器学习（TP181）

作者姓名：

简梓炜;于娟

作者机构：

福州大学经济与管理学院福建福州 350108

文献出处：

引用格式：

[1]简梓炜;于娟-.基于特征词配对的德语文本聚类方法研究)[J].情报探索,2022(09):86-93

A类：

B类：

特征词,德语,文本聚类,聚类方法,文本处理,文本相似度计算,聚类研究,空缺,词语,词选,文本表示,匹配度,NMI,和约,Purity,文本信息

AB值：

0.266548

相似文献

基于BERT与BiLSTM混合方法的网络舆情非平衡文本情感分析

刘继;顾凤云-新疆财经大学统计与数据科学学学院乌鲁木齐 830012

网络舆情话题漂移路径研究

朱恒民;钱莉;杨欣谊;魏静-南京邮电大学管理学院南京 210003;江苏高校哲学社会科学重点研究基地—信息产业融合创新与应急管理研究中心南京 210003;南京大学信息管理学院南京 210023

企业视角下校企知识产权合作主题推荐模型研究

宋凯;冉从敬-山东师范大学图书馆,山东济南250358;武汉大学信息管理学院,湖北武汉430072

基于句法特征的突发自然灾害网络舆情事件识别方法研究

陈健瑶;夏立新;舒怡娴-华中师范大学信息管理学院,湖北武汉430079

社交网络用户自我披露水平与其人格特质之间的关联研究

张凯亮;臧国全;路杭霖;于政杰-郑州大学政治与公共管理学院,河南郑州450001;郑州大学信息管理学院,河南郑州450001;郑州市数据科学研究中心,河南郑州450001;郑州大学商学院,河南郑州450001

基于事理图谱的游记文本知识发现——以康养旅游为例

邓君;彭珺;孙绍丹;鞠海龙-吉林大学商学与管理学院,吉林长春130012;桂林理工大学商学院,广西桂林541000

基于企业画像的高校专利个性化推荐

宋凯;冉从敬-山东师范大学图书馆;武汉大学图书馆学系

面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例

孙文龙;张逸勤;王凡铭;鱼汇沐;刘江峰;王东波-南京工业大学外国语言文学学院;南京大学信息管理学院;南京熙道文化传播有限公司;南京农业大学信息管理学院

外文数据库英译中文作者姓名消歧实践

朱玉强;江涛;李翼飞-山东师范大学图书馆,济南 250014;海南医学院图书馆,海口 571199

面向技术创新的企业智能情报服务平台构建

冯向梅;顾方;鲁瑛;周群芳;王俊松;肖甲宏-中国化工信息中心有限公司情报资讯事业部,北京 100029;宝武集团(宝钢)中央研究院,上海 200126

基于在线评论的政府数据开放平台用户增量需求研究

李冠;赵毅-山东科技大学计算机科学与工程学院,青岛 266590

高校图书馆主题书展与读者阅读需求契合度研究——以华东师范大学为例

彭霞;葛星佑-华东师范大学图书馆,上海200062

学科研究主题演进分析——以"智慧图书馆"为例

李若鹏-辽阳市公共文化和体育服务中心, 111000

在线健康社区双心疾病用户信息需求主题与情感分析

章浩明;赵樱-上海大学文化遗产与信息管理学院,200444

数据驱动下基于语义相似性的产品需求识别研究

李贺;谷莹;刘嘉宇-吉林大学管理学院,吉林长春 130022

典籍事件触发动词识别研究:基于《左传》的文本实验

何琳;马晓雯;喻雪寒;艾毓茜;李章超;高丹-南京农业大学信息管理学院南京210095;南京农业大学人文与社会计算研究中心南京210095;南京医科大学图书馆南京210029

故事线构建及可视化、情感化、场景化应用探索——以《张学良口述历史》为例

王阮;邓君-吉林大学商学与管理学院长春130012

景点文化资源标签自动生成与应用研究

郑淞尹;谈国新-华中师范大学国家文化产业研究中心武汉430079

考虑时序的单篇科技文献新颖性评估方法

张吉玉;张均胜-中国科学技术信息研究所北京100038

基于细粒度语义实体的学术论文推荐研究

李晓敏;王昊;李跃艳-南京大学信息管理学院,江苏南京210023;江苏省数据工程与知识服务重点实验室,江苏南京210093

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。