典型文献
基于深度学习的科学数据集检索方法研究
文献摘要:
[目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果.[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集;在第二阶段,基于BERT排序模型对候选数据集的相关性进行评分,据此优化检索结果排序.[结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价,结果表明:提出的检索模型效果最优,其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点;对各模型检索结果分析发现,该模型相比基准模型具有更强的语义检索能力;此外,还对模型权重设置进行分析,可为实践应用中的参数设置提供参考.[局限]仅在英文人文社科数据集上进行模型效果验证.
文献关键词:
信息检索;数据集搜索;科学数据;神经网络;学习排序;BERT;SimCSE
中图分类号:
作者姓名:
罗鹏程;王继民;王世奇;郭鑫;高正;赵常煜
作者机构:
北京大学信息管理系,北京 100871;北京大学图书馆,北京 100871;延世大学融合医学系,韩国 首尔 03722
文献出处:
引用格式:
[1]罗鹏程;王继民;王世奇;郭鑫;高正;赵常煜-.基于深度学习的科学数据集检索方法研究)[J].情报理论与实践,2022(07):49-56
A类:
SimCSE,模型效果验证,学习排序
B类:
科学数据集,数据集检索,检索方法,研究范式,检索功能,重排序,第一阶段,BM25,稠密,检索模型,第二阶段,BERT,排序模型,人文社科,科学数据仓储,万数,元数据,进行检索,NDCG,向量空间,百分点,比基,语义检索,模型权重,重设,参数设置,信息检索,数据集搜索
AB值:
0.345346
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。