典型文献
汉语水平考试(HSK)阅读文本可读性自动评估研究
文献摘要:
本文基于汉语二语文本可读性的特征集合,通过对比六种机器学习模型的效果,引入特征选择算法,实现了汉语水平考试(HSK)阅读文本可读性的自动评估.实验结果表明,支持向量机模型在HSK阅读文本可读性评估中的表现最好;基于汉字、词汇、句法和篇章的全特征模型的预测准确率达0.876;不同层面的特征预测能力存在差异,其中词汇层面表现最好;剔除冗余特征后,词汇和汉字两个层面的18个特征进入最优模型,句法和篇章特征未能进入该模型.本研究对HSK阅读文本的选择和改编及其他类型的文本可读性评估具有一定的参考意义.
文献关键词:
文本可读性;HSK阅读文本;语言特征;机器学习;支持向量机
中图分类号:
作者姓名:
杜月明;王亚敏;王蕾
作者机构:
北京大学对外汉语教育学院 北京 100871;北京语言大学汉语速成学院 北京 100083
文献出处:
引用格式:
[1]杜月明;王亚敏;王蕾-.汉语水平考试(HSK)阅读文本可读性自动评估研究)[J].语言文字应用,2022(03):73-86
A类:
B类:
汉语水平考试,HSK,阅读文本,文本可读性,自动评估,评估研究,汉语二语,特征集合,六种,机器学习模型,特征选择算法,支持向量机模型,汉字,句法,全特征,特征模型,预测准确率,特征预测,预测能力,中词,词汇层面,冗余特征,最优模型,改编,语言特征
AB值:
0.308602
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。