首站-论文投稿智能助手
典型文献
一种采用机器阅读理解模型的中文分词方法
文献摘要:
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法.将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题.在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高 了 0.13%、0.37%、0.4%和 0.08%.
文献关键词:
中文分词;序列标注;歧义词;机器阅读理解
作者姓名:
周裕林;陈艳平;黄瑞章;秦永彬;林川
作者机构:
公共大数据国家重点实验室,550025,贵阳;贵州大学计算机科学与技术学院,550025,贵阳
引用格式:
[1]周裕林;陈艳平;黄瑞章;秦永彬;林川-.一种采用机器阅读理解模型的中文分词方法)[J].西安交通大学学报,2022(08):95-103
A类:
Bakeoff2005,CITYU
B类:
机器阅读理解,阅读理解模型,中文分词,词序,序列标注,句子,长距离,语义依赖,输入特征,数据不平衡,任务转换,转换成,解任,构建问题,文本内容,词组,三元组,Transformer,双向编码器,BERT,预训练,上下文信息,二进制,分类器,交叉熵损失函数,解数,不平衡问题,语料库,公共数据,PKU,MSRA,AS,歧义词
AB值:
0.348567
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。