典型文献
小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别
文献摘要:
小句识别是篇章信息处理的基础问题.在语言学上,判断一个语段是否为小句,不仅依赖其内部结构,也依赖其在对外全局中的功能.问题是,识别小句一般依赖多大范围语段全局为好.本文基于汉语小句识别,对此探索.汉语小句一般以标点标记首尾,但并非所有标点都标记小句.本文将小句识别当成标点分类问题,将小句识别所依赖的全局范围归结为标点前后的语段个数,探测该范围大小与识别效果间关系.本文基于预训练语言模型Bert提取标点两侧语段的文本特征进行小句识别.实验表明,语段个数增多,识别效果增强,标点前后语段各达到4个效果最好;对识别效果的贡献,标点前侧语段大于后侧语段,双侧语段大于单侧语段;通过全局长度与前后语段特征权重的优化,最优模型小句识别效果F1值为95.19%.
文献关键词:
小句识别;篇章分析;语段全局范围;中文信息处理
中图分类号:
作者姓名:
冯文贺;高子雄;张文娟
作者机构:
广东外语外贸大学 广州 510420
文献出处:
引用格式:
[1]冯文贺;高子雄;张文娟-.小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别)[J].语言文字应用,2022(02):111-121
A类:
小句识别,语段全局范围
B类:
预训练语言模型,Bert,基础问题,标点,首尾,当成,分类问题,归结为,文本特征,后语,前侧,后侧,局长,特征权重,最优模型,篇章分析,中文信息处理
AB值:
0.198346
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。