典型文献
面实体匹配的集成学习CatBoost方法
文献摘要:
现有的面实体多指标几何匹配方法在计算综合相似度和确定最终匹配实体时面临着指标权重和阈值难以科学量化的难题,集成学习算法通过构建并结合多个机器学习器来完成学习任务,在解决分类问题时体现出了较为明显的性能优势.为此,本文提出了一种基于集成学习算法CatBoost的面实体匹配方法,将匹配问题转化为分类问题.选取形状、面积、方向和位置4个几何特征作为模型分类特征;利用过采样与欠采样相结合的混合重采样技术减轻原始训练样本的类别不平衡度;借助贝叶斯优化算法确定CatBoost模型的最优超参数;引入可解释人工智能领域的SHAP解释框架从全局和局部两个角度解释各输入特征对匹配结果的影响.在青藏高原的面状湖泊数据上对本文提出的方法进行了验证,实验结果表明:对模型预测影响最大的特征是位置,然后依次是面积、形状,影响最小的特征是方向.CatBoost匹配方法在实验数据集上的查准率、查全率和Fl-score分别达到0.9937、0.9753和0.9844,相比于直接使用样本不均衡的原始样本进行模型训练,分别提高了约5.8%、0.6%和3.3%.与传统的面实体多指标双向匹配方法和逻辑回归、K近邻、决策树、神经网络等常规机器学习分类算法相比,集成学习算法CatBoost性能表现更加优异,在避免指标权重和阈值设置难题的同时取得了较好的匹配结果.
文献关键词:
面实体;相似性;匹配;集成学习;CatBoost;类别不平衡;贝叶斯优化;SHAP
中图分类号:
作者姓名:
刘贺;郭黎;李豪;张婉晨;白翔天
作者机构:
61363部队,西安710054;信息工程大学,郑州450001;32021部队,北京100094
文献出处:
引用格式:
[1]刘贺;郭黎;李豪;张婉晨;白翔天-.面实体匹配的集成学习CatBoost方法)[J].地球信息科学学报,2022(11):2198-2211
A类:
B类:
面实体,实体匹配,CatBoost,多指标,几何匹配,匹配方法,集成学习算法,学习任务,分类问题,时体,性能优势,匹配问题,问题转化,几何特征,模型分类,分类特征,过采样,欠采样,重采样技术,训练样本,类别不平衡,不平衡度,贝叶斯优化算法,优超,超参数,可解释人工智能,人工智能领域,SHAP,解释框架,各输,输入特征,青藏高原,湖泊,查准率,查全率,Fl,score,样本不均衡,模型训练,双向匹配,逻辑回归,近邻,决策树,机器学习分类算法
AB值:
0.391544
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。