典型文献
NKCorpus:利用海量网络数据构建大型高质量中文数据集
文献摘要:
[目的]大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架.[方法]利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化.[结果]提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集.[结论]NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求.
文献关键词:
自然语言处理;中文数据集;数据集构建
中图分类号:
作者姓名:
李东闻;钟震宇;申峻宇;王昊天;孙羽菲;张玉志
作者机构:
南开大学,软件学院,天津 300350
文献出处:
引用格式:
[1]李东闻;钟震宇;申峻宇;王昊天;孙羽菲;张玉志-.NKCorpus:利用海量网络数据构建大型高质量中文数据集)[J].数据与计算发展前沿,2022(03):30-45
A类:
NKCorpus,700GB
B类:
用海,网络数据,中文数据集,预训练语言模型,自然语言处理,处理模型,语言提取,数据去重,多种方法,原始数据,获取数据,并行技术,处理框架,高效构建,数据集构建
AB值:
0.235603
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。