典型文献
古汉语词义标注语料库的构建及应用研究
文献摘要:
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战.为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注.现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源.实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右.进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用.
文献关键词:
古代汉语;语料库;词义标注;词义消歧
中图分类号:
作者姓名:
舒蕾;郭懿鸾;王慧萍;张学涛;胡韧奋
作者机构:
北京师范大学 中文信息处理研究所,北京 100875;北京师范大学 汉语文化学院,北京 100875;北京师范大学 人文宗教高等研究院,北京 100875
文献出处:
引用格式:
[1]舒蕾;郭懿鸾;王慧萍;张学涛;胡韧奋-.古汉语词义标注语料库的构建及应用研究)[J].中文信息学报,2022(05):21-30
A类:
词义标注
B类:
古汉语,汉语词,语料库,构建及应用,单音节词,一词多义,多义现象,现代人,人理,古文,辞书,多义词,划分原则,知识整理,万条,古代汉语,语言资源,BERT,语言模型,词义历时演变,演变分析,和义,初步探索,词义消歧,语言本体,本体研究,词典,编撰
AB值:
0.304801
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。