典型文献
TCS:一种用于跨语言文本标签预测的"老师-课程-学生"学习框架
文献摘要:
跨语言迁移旨在借助源语言的标注样本学习目标语言上的相应任务,是解决目标语言标记数据不足的重要途径.近期表现出色的方法多基于自训练,通过逐步自动标记无标注样本实现知识的迁移.然而自训练存在不准确监督的问题,即当前模型(称为老师模型)对目标语言无标注样本的错误预测会误导后续模型(称为学生模型)的学习.跨语言迁移中,源语言和目标语言样本之间存在的分布差异加重了这个问题.本文提出一种名为"老师-课程-学生"(TCS)的学习框架,综合使用三项技术解决自训练中的不准确监督的问题,包括软目标训练技术、渐进式样本选择技术、"从可信到可疑"的课程学习技术等.在跨语言文本分类和跨语言命名实体识别基准数据集上的实验表明,TCS取得的平均结果在自训练的基础上分别提高了 2.51%和3.25%,并分别比现有最佳结果高1.51%和4.45%.消融实验表明,TCS使用的三项技术都能有效提升最终模型的性能,其中课程学习技术和"从可信到可疑"的课程顺序是取得出色结果的关键.相关代码和实验配置可以在获取.
文献关键词:
跨语言迁移;自训练;课程学习;文本分类;命名实体识别
中图分类号:
作者姓名:
浦通;黄书剑;张洋铭;周祥生;屠要峰;戴新宇;陈家骏
作者机构:
计算机软件新技术国家重点实验室 南京大学 南京 210023;鹏城实验室 广东深圳 518054;中兴通讯股份有限公司 南京 210012
文献出处:
引用格式:
[1]浦通;黄书剑;张洋铭;周祥生;屠要峰;戴新宇;陈家骏-.TCS:一种用于跨语言文本标签预测的"老师-课程-学生"学习框架)[J].计算机学报,2022(09):1983-1996
A类:
跨语言迁移,跨语言文本分类
B类:
TCS,源语言,学习目标,目标语言,记数,表现出色,自训练,自动标记,误导,学生模型,分布差异,渐进式,式样,样本选择,信到,可疑,课程学习,学习技术,命名实体识别,识别基准,基准数据集,消融实验,终模型,色结,代码
AB值:
0.230835
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。