典型文献
人在回路的数据融合系统
文献摘要:
一个端到端的数据融合系统在如下几个阶段需要用户的反馈,包括为实体匹配收集训练数据的阶段,对计算出来的实体聚类进行纠错的阶段以及对每个实体聚类中的数据形式进行转换的阶段.经过这些步骤之后,数据融合系统可以将每个实体分组中的实体合并成一条权威的实体表示(被称作"黄金记录").传统的数据融合系统通常会按照特定的顺序,在用户时间代价不超过预算的前提下,依次询问特定集合中的问题并且获得用户反馈.可是,由于这些问题是高度相关的,一个问题的答案会影响到数据处理管道中任何一个阶段的结果,所以将各个阶段交替进行并且对他们的执行顺序进行全局优化能带来显著的收益.在这篇文章中,我们提出一个"人在回路"的数据融合系统,通过交替询问不同种类的问题来减少获得用户回答的代价.基于这个框架,我们提出了一些不同种类问题能够带来的数据融合质量提升的收益评价模型,以及不同问题需要的用户回答时间的代价评估模型.在这个端到端的"人在回路"数据融合系统中,我们开发出一个问题调度框架来精心选择问题集合以及问题询问的顺序,最终实现利用同等的用户代价让实体合并的精确度从基线方法的70%提升到90%.
文献关键词:
数据融合;实体匹配;实体合并;人在回路;机器学习;相似查询;代价优化
中图分类号:
作者姓名:
孙佶;李国良
作者机构:
清华大学计算机系 北京 100084
文献出处:
引用格式:
[1]孙佶;李国良-.人在回路的数据融合系统)[J].计算机学报,2022(03):654-668
A类:
实体合并,相似查询
B类:
人在回路,数据融合,融合系统,端到端,实体匹配,集训,训练数据,计算出来,纠错,被称作,统通,超过预算,询问,得用,用户反馈,可是,各个阶段,全局优化,篇文章,融合质量,调度框架,题集,代价优化
AB值:
0.274175
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。