首站-论文投稿智能助手
典型文献
一种细粒度的汉语语义角色标注数据集的构建方法
文献摘要:
语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集.目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务.为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系.在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集.截至目前,该工程一共完成了9550条汉语语句的语义角色标注,其中含有9423个中枢语义角色,29142个主要周边语义角色,3745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注.我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验.实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据.
文献关键词:
语义角色;细粒度语义标注;汉语语义角色标注;汉语语义分析
作者姓名:
宋衡;曹存根;王亚;王石
作者机构:
中国科学院计算技术研究所智能信息处理重点实验室,北京100190;中国科学院大学,北京 100049
文献出处:
引用格式:
[1]宋衡;曹存根;王亚;王石-.一种细粒度的汉语语义角色标注数据集的构建方法)[J].中文信息学报,2022(12):52-66,73
A类:
汉语语义角色标注,Proposition,细粒度语义标注,汉语语义分析
B类:
构建方法,自然语言,语义理解,自动标注,技术依赖,训练数据集,部分语义,色数,注上,语义解析,知识抽取,语料,分类体系,半自动,数据集构建,一共,语句,定语,Bi,LSTM+CRF,基线模型,建好,Chinese,Bank,准实验,自动识别,识别准确率
AB值:
0.178936
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。