NKCorpus:利用海量网络数据构建大型高质量中文数据集|李东闻;钟震宇;申峻宇;王昊天;孙羽菲;张玉志 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

NKCorpus:利用海量网络数据构建大型高质量中文数据集

文献摘要：

[目的]大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架.[方法]利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化.[结果]提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集.[结论]NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求.

文献关键词：

自然语言处理;中文数据集;数据集构建

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

作者姓名：

李东闻;钟震宇;申峻宇;王昊天;孙羽菲;张玉志

作者机构：

南开大学,软件学院,天津 300350

文献出处：

数据与计算发展前沿

引用格式：

[1]李东闻;钟震宇;申峻宇;王昊天;孙羽菲;张玉志-.NKCorpus:利用海量网络数据构建大型高质量中文数据集)[J].数据与计算发展前沿,2022(03):30-45

A类：

NKCorpus,700GB

B类：

用海,网络数据,中文数据集,预训练语言模型,自然语言处理,处理模型,语言提取,数据去重,多种方法,原始数据,获取数据,并行技术,处理框架,高效构建,数据集构建

AB值：

0.235603

相似文献

分区优化混合SfM方法

许彪;董友强;张力;孙钰珊;刘玉轩;查冰;韩晓霞-中国测绘科学研究院,北京100830;北京建筑大学测绘与城市空间信息学院,北京100044;北京市建筑遗产精细重构与健康监测重点实验室,北京100044;俄亥俄州立大学工程学院土木环境和大地测量系,美国哥伦布43210

一种半监督学习的金融新闻文本分类算法

张晓龙;支龙;高剑;苗仲辰;林越峰;项雅丽;熊贇-复旦大学计算机科学技术学院,上海 210438;上海市数据科学重点实验室,上海 200438;上海金融期货信息技术有限公司,上海 200120

基于NLP的中医医案文本快速结构化方法

肖晓霞;刘明婷;杨冯天赐;刘鉴建县;杨阳;石月-湖南中医药大学信息科学与工程学院,湖南长沙410208;湖南大学信息科学与工程学院,湖南长沙410082;湘潭大学化学学院,湖南湘潭411105;湖南泽塔科技有限公司,湖南长沙410012;东北林业大学工程技术学院,黑龙江哈尔滨150040;北京瑞迪弘欣科贸有限公司,北京100071

税收优惠政策关键要素抽取与可视化分析

关海山;郑玉龙;魏笔凡;张泽民;岳浩;师斌;董博-西安交通大学软件学院,陕西西安 710049;陕西省天地网技术重点实验室,陕西西安 710049;西安交通大学继续教育学院,陕西西安 710049;西安交通大学计算机科学与技术学院,陕西西安 710049

数字人文视域下面向历史古籍的信息抽取方法研究

韩立帆;季紫荆;陈子睿;王鑫-天津大学智能与计算学部,天津 300350;天津市认知计算与应用重点实验室,天津 300350

文本情感可视分析技术及其在人文领域的应用

张伶俐;褚琦凯;王桂娟;张巍瀚;蒲慧;宋振金;吴亚东-四川轻化工大学计算机科学与工程学院,四川自贡 643000;四川轻化工大学自动化与信息工程学院,四川自贡 643000;西南科技大学计算机科学与技术学院,四川绵阳 621000;西南科技大学计算机信息工程学院,四川绵阳 621000

基于深度学习的警情记录关键信息自动抽取

崔雨萌;王靖亚;闫尚义;陶知众-中国人民公安大学信息网络安全学院,北京 100038

自然语言处理新范式:基于预训练模型的方法

车万翔;刘挺-哈尔滨工业大学,中国哈尔滨150001

知识指导的预训练语言模型

韩旭;张正彦;刘知远-清华大学,中国北京100084

知识增强预训练模型

王海峰;孙宇;吴华-北京百度网讯科技有限公司,中国北京100193

悟道∙文澜:超大规模多模态预训练模型带来了什么?

卢志武;金琴;宋睿华;文继荣-中国人民大学高瓴人工智能学院,中国北京100872;中国人民大学信息学院,中国北京100872

鹏程·盘古:大规模自回归中文预训练语言模型及应用

曾炜;苏腾;王晖;田永鸿;高文-鹏城实验室,中国深圳518055;北京大学,中国北京100871;华为技术有限公司,中国杭州310052

超大规模多模态预训练模型M6的关键技术及产业应用

林俊旸;周畅;杨红霞-阿里巴巴达摩院,中国杭州311100

高效训练百万亿参数预训练模型的系统挑战和对策

马子轩;翟季冬;韩文弢;陈文光;郑纬民-清华大学,中国北京100083

自然语言处理技术发展

王海宁-英特尔(中国)有限公司,中国北京100013

大规模空中三角测量的智能分区与合并算法

骆奇峰;丁华祥;鲁路平-广东省国土资源测绘院,广州 510500;武汉大学地球空间信息技术协同创新中心,武汉 430079

改进SegNet与迁移学习的遥感建筑物分割方法

林禹;赵泉华;沈昭宇;李玉-辽宁工程技术大学测绘与地理科学学院,辽宁阜新 123000

基于FPGA的人体行为识别系统的设计

吴宇航;何军-南京信息工程大学电子与信息工程学院,南京,210044;南京信息工程大学人工智能学院,南京, 210044

基于GIS与证据权模型的明光市地下水潜力分析

魏建飞;马雷;赵卫东;钱家忠-合肥工业大学资源与环境工程学院,安徽合肥 230009

基于网络文本迁移学习的旅游知识图谱构建

高嘉良;陆锋;彭澎;徐阳-中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京,100101;中国科学院大学资源与环境学院,北京,100049;政务大数据应用省部共建协同创新中心,福建福州,350003;江苏省地理信息资源开发与利用协同创新中心,江苏南京,210023

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。