典型文献
中国替代计量数据的来源与识别研究
文献摘要:
[目的/意义]从不同来源的文本中识别和提取学术论文寻找合适的方法,为后续开展国内替代计量研究提供参考.[方法/过程]基于广泛的数据收集,总结归纳中国替代数据来源类别,提出从中国替代计量数据来源中识别学术论文的思路,探究将命名实体识别的方法引入识别和提取学术论文上的可能性,并利用基于正则表达式的识别方法进行实证分析.[结果/结论]中国替代计量数据源种类繁多,包括知识共享平台、学术社交平台、大众社交平台、新闻平台、学科交流平台和视频网站.学术论文提及作为一类新型的命名实体,可参考传统的命名实体识别方法进行识别和提取.实证研究显示,基于正则表达式的方法可以用于学术论文的识别,在知乎"机器学习"话题的数据集上取得了80%的Fl值,而正则表达式模板的匹配度对识别效果起关键性作用.
文献关键词:
替代计量学;替代计量数据;替代计量数据源;实体识别;正则表达式
中图分类号:
作者姓名:
余厚强;马超;王玥;李龙飞
作者机构:
中山大学信息管理学院,广东 广州 510006;南京理工大学经济管理学院,江苏 南京 210094
文献出处:
引用格式:
[1]余厚强;马超;王玥;李龙飞-.中国替代计量数据的来源与识别研究)[J].情报理论与实践,2022(12):111-118
A类:
替代计量数据源
B类:
不同来源,学术论文,计量研究,数据收集,替代数据,数据来源,命名实体识别,正则表达式,知识共享平台,学术社交平台,新闻平台,学科交流,交流平台,视频网站,实体识别方法,知乎,Fl,匹配度,替代计量学
AB值:
0.201089
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。