首站-论文投稿智能助手
典型文献
基于机器学习和深度学习的南海证据性数据抽取算法比较与应用
文献摘要:
[目的/意义]本文尝试从文献载体到文献内容(全文检索)再到数据层面的细粒度的南海证据性数据抽取.首先,能提高南海文献数字资源的检索性能;其次,为专业人员提供充足的证据材料;最后,为南海维权的证据链关联模型构建做好基础.[方法/过程]根据南海维权证据的特点,制定抽取规则.通过文本清洗、文本分段、段分句、分词把非结构化的数据转化成结构化数据.然后分别比较朴素贝叶斯、SVM、随机森林、DNN、TexCNN、Bi-LSTM、LightGBM和XGBoost的证据性数据抽取效果.最后为了进一步提高证据抽取的准确性,增加了"5W"规则过滤和人工校验.[结果/结论]实验结果表明,基于TensorFlow深度学习框架,构建DNN模型的证据性数据抽取效果较好,准确率达0.88.通过进一步融合"5W"规则过滤和人工校验,显著地提高了南海证据性数据抽取的准确率,本文的证据抽取的方法具有一定的可行性.
文献关键词:
证据性数据抽取;TensorFlow;机器学习算法;深度学习算法;"5W"规则
作者姓名:
彭玉芳;陈将浩;何志强
作者机构:
南京工程学院经济与管理学院,江苏 南京211167;南京大学信息管理学院,江苏 南京210046;中国科学技术大学数学科学学院,安徽 合肥230026;中国科学技术大学苏州研究院,江苏 苏州215123
文献出处:
引用格式:
[1]彭玉芳;陈将浩;何志强-.基于机器学习和深度学习的南海证据性数据抽取算法比较与应用)[J].现代情报,2022(02):55-69
A类:
南海证据性数据,证据性数据抽取,维权证据,TexCNN
B类:
基于机器学习,算法比较,全文检索,数据层,细粒度,南海文献,数字资源,专业人员,证据材料,证据链,关联模型,抽取规则,分句,分词,非结构化,转化成,结构化数据,朴素贝叶斯,DNN,Bi,LightGBM,XGBoost,5W,校验,TensorFlow,深度学习框架,机器学习算法,深度学习算法
AB值:
0.285467
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。