典型文献
新兴技术识别中的不均衡分类研究——基于代价敏感的随机森林算法
文献摘要:
基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注.本研究目标在于通过优化分类策略改善新兴技术识别中不均衡数据集造成的分类偏向多数类别的识别效果,提出了综合数据、算法和评估三个层面的新兴技术识别不均衡分类优化框架,并以预测癌症药物领域专利是否有成为新兴技术潜质的二分类场景为例开展实证分析.具体改进之处在于:数据层面采纳渐进式重采样思路;算法层面构建代价敏感的随机森林;评估层面引入代价敏感思想,探究在缺乏专家经验时的代价矩阵验证方式.研究结果表明,基于1:2均衡比例随机欠采样、以ROC-Youden指数阈值代价矩阵构建的代价敏感随机森林在对应的新兴技术识别目标中能正确预测出82.8%的新兴技术和81.6%的普通技术,显著优于本文对照组及现有相关成果,对未来深入挖掘新兴技术识别中不均衡分类问题的本质具有参考价值.
文献关键词:
新兴技术识别;不均衡分类;代价敏感;随机森林;渐进式重采样
中图分类号:
作者姓名:
卢小宾;张杨燚;杨冠灿;行佳鑫
作者机构:
中国人民大学信息资源管理学院,北京 100872
文献出处:
引用格式:
[1]卢小宾;张杨燚;杨冠灿;行佳鑫-.新兴技术识别中的不均衡分类研究——基于代价敏感的随机森林算法)[J].情报学报,2022(10):1059-1070
A类:
癌症药物领域,渐进式重采样
B类:
新兴技术识别,不均衡分类,分类研究,代价敏感,随机森林算法,专利数据,专利特征,特征指标,机器学习方法,技术发明,一小,分类问题,问题的本质,分类策略,不均衡数据集,分类优化,优化框架,利是,潜质,二分类,体改,数据层,采纳,感思,专家经验,随机欠采样,Youden,预测出
AB值:
0.251979
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。