典型文献
基于多语BERT的无监督攻击性言论检测
文献摘要:
攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法.首先,使用多语BERT(mBERT)模型在高资源英语数据集上进行对攻击性特征的学习,得到一个原模型;然后,通过分析英语与丹麦语、阿拉伯语、土耳其语、希腊语的语言相似程度,将原模型迁移到这四种低资源语言上,实现对低资源语言的攻击性言论自动检测.实验结果显示,与BERT、线性回归(LR)、支持向量机(SVM)、多层感知机(MLP)这四种方法相比,所提方法在丹麦语、阿拉伯语、土耳其语、希腊语这四种语言上的攻击性言论检测的准确率和F1值均提高了近2个百分点,接近目前的有监督检测,可见采用跨语言模型迁移学习和迁移检测相结合的方法能够实现对低资源语言的无监督攻击性检测.
文献关键词:
跨语言模型;攻击性言论检测;BERT;无监督方法;迁移学习
中图分类号:
作者姓名:
师夏阳;张风远;袁嘉琪;黄敏
作者机构:
郑州轻工业大学 软件学院,郑州 450001;郑州轻工业大学 数学与信息科学学院,郑州 450001
文献出处:
引用格式:
[1]师夏阳;张风远;袁嘉琪;黄敏-.基于多语BERT的无监督攻击性言论检测)[J].计算机应用,2022(11):3379-3385
A类:
攻击性言论检测,mBERT,丹麦语,跨语言模型
B类:
多语,社会安定,定造,自动检测,少数几种,低资源语言,语料,对攻,阿拉伯语,土耳其语,希腊语,相似程度,模型迁移,LR,多层感知机,MLP,四种方法,百分点,有监督,监督检测,迁移学习,无监督方法
AB值:
0.178869
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。