鹏程·盘古:大规模自回归中文预训练语言模型及应用|曾炜;苏腾;王晖;田永鸿;高文|北京大学,中国北京100871 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

鹏程·盘古:大规模自回归中文预训练语言模型及应用

文献摘要：

在鹏城云脑Ⅱ上训练了全球首个拥有全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古.鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到4096个处理器上.对比实验表明,在少样本或零样本情况下,鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能.在此基础上,鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果.

文献关键词：

大规模预训练语言模型;鹏城云脑Ⅱ;大规模分布式训练;中文理解与生成;提示微调学习

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

作者姓名：

曾炜;苏腾;王晖;田永鸿;高文

作者机构：

鹏城实验室,中国深圳518055;北京大学,中国北京100871;华为技术有限公司,中国杭州310052

文献出处：

中兴通讯技术

引用格式：

[1]曾炜;苏腾;王晖;田永鸿;高文-.鹏程·盘古:大规模自回归中文预训练语言模型及应用)[J].中兴通讯技术,2022(02):33-43

A类：

提示微调学习,大规模分布式训练,中文理解与生成

B类：

鹏程,盘古,自回归,鹏城,全开,开源,大模型,TB,训练数据,全场景,智能计算,计算框架,MindSpore,并行技术,五维,训练策略,训练任务,处理器,少样本,零样本,自然语言理解,模型压缩,多任务学习,持续学习,大规模预训练语言模型

AB值：

0.340539

相似文献

基于复述增广的医疗领域机器翻译

安波;龙从军-中国社会科学院民族学与人类学研究所北京 100081

任务型对话系统中的自然语言生成研究进展综述

覃立波;黎州扬;娄杰铭;禹棋赢;车万翔-哈尔滨工业大学计算学部,黑龙江哈尔滨150001

基于预训练语言模型的商品属性抽取

张世奇;马进;周夏冰;贾昊;陈文亮;张民-苏州大学计算机科学与技术学院,江苏苏州215006

基于预训练语言模型的政策识别研究

朱娜娜;王航;张家乐;孙英巍-黑龙江大学信息管理学院,黑龙江哈尔滨 150080;哈尔滨学院图书馆,黑龙江哈尔滨 150086;哈尔滨工业大学计算学部,黑龙江哈尔滨 150001;哈尔滨局集团公司党校,黑龙江哈尔滨 150001

基于多粒度特征的文本生成评价方法

赖华;高玉梦;黄于欣;余正涛;张勇丙-昆明理工大学信息工程与自动化学院,云南昆明 650504;昆明理工大学云南省人工智能重点实验室,云南昆明 650504

基于两段高速网络的命名实体识别

陈淳;李明扬;孔芳-苏州大学计算机科学与技术学院,江苏苏州 215006

基于自动弱标注数据的跨领域命名实体识别

方晔玮;王铭涛;陈文亮;张熠天;张民-苏州大学计算机科学与技术学院,江苏苏州 215006;国家工业信息安全发展研究中心,北京 100043

面向问题生成的预训练模型适应性优化方法研究

苏玉兰;洪宇;朱鸿雨;武恺莉;张民-苏州大学计算机科学与技术学院,江苏苏州 215006

基于强化学习的对抗预训练语言建模方法

颜俊琦;孙水发;吴义熔;裴伟;董方敏-三峡大学智慧医疗宜昌市重点实验室,湖北宜昌 443002;三峡大学计算机与信息学院,湖北宜昌 443002

结合统计特征和图模型的半监督式中文关键短语抽取方法

谢海华;陈雪飞;都仪敏;吕肖庆;汤帜-北大方正信息产业集团有限公司数字出版技术国家重点实验室,北京 100871;北京雁栖湖应用数学研究院,北京 101407;北京大学王选计算机研究所,北京 100871

基于抽象事理图谱的因果简答题求解方法

陈越;何宇豪;孙亚伟;程龚;瞿裕忠-南京大学计算机软件新技术国家重点实验室,江苏南京 210023

裁判文书诉辩双方互动论点对识别方法研究

张虎;季泽;王宇杰;李茹-山西大学计算机与信息技术学院,山西太原030006;山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006

多模块联合的阅读理解候选句抽取

吉宇;王笑月;李茹;郭少茹;关勇-山西大学计算机与信息技术学院,山西太原030006;山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006

面向问题复述识别的定向数据增强方法

朱鸿雨;金志凌;洪宇;苏玉兰;张民-苏州大学计算机科学与技术学院,江苏苏州 215006

基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取

于韬;尼玛次仁;拥措;尼玛扎西-西藏大学信息科学技术学院,西藏拉萨 850000;西藏大学西藏自治区藏文信息技术人工智能重点实验室,西藏拉萨 850000;西藏大学藏文信息技术教育部工程研究中心,西藏拉萨 850000

融合案件要素的相似案例匹配

刘权;余正涛;高盛祥;何世柱;刘康-昆明理工大学信息工程与自动化学院,云南昆明 650500;昆明理工大学云南省人工智能重点实验室,云南昆明 650500;中国科学院自动化研究所,北京 100190

面向文本推理的知识增强预训练语言模型

熊凯;杜理;丁效;刘挺;秦兵;付博-哈尔滨工业大学社会计算与信息检索研究中心,黑龙江哈尔滨150006;建信金融科技有限责任公司基础技术中心,北京 100032

基于数据增强和多任务特征学习的中文语法错误检测方法

谢海华;陈志优;程静;吕肖庆;汤帜-北大方正信息产业集团有限公司数字出版技术国家重点实验室,北京100871;北京雁栖湖应用数学研究院,北京101408;北京大学王选计算机研究所,北京100871

基于预训练语言模型的藏文文本分类

安波;龙从军-中国社会科学院民族学与人类学研究所,北京100081

基于预训练语言模型的中医症状标准化方法

谢永红;陶浒;贾麒;杨石兵;韩辛亮-北京科技大学计算机与通信工程学院, 北京100083;材料领域知识工程北京市重点实验室,北京100083

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。