首站-论文投稿智能助手
典型文献
面向工业生产的中文Text-to-SQL模型
文献摘要:
英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模型精确匹配率变低.针对迁移过程中出现的问题,提出了对应的解决方法并构建修改后的模型.首先,在数据使用过程中融入工厂元数据信息以解决表示形式不一致以及列名隐含在语义中的问题;然后,根据中文语言表达方式的特性,使用基于相对位置的自注意力模型直接通过问句以及数据库模式信息识别出where子句的value值;最后,根据工业问句查询内容的特性,使用微调后的基于变换器的双向编码器表示技术(BERT)对问句进行分类以提高模型对SQL语句结构预测的准确率.构建了一个基于铝冶炼行业的工业数据集,并在该数据集上进行实验验证.结果表明所提模型在工业测试集上的精确匹配率为74.2%,对比英文数据集Spider上各阶段主流模型的效果后可以看出,所提模型能有效处理中文工业Text-to-SQL任务.
文献关键词:
中文Text-to-SQL任务;工业数据集;元数据;自注意力模型;基于变换器的双向编码器表示技术
作者姓名:
吕剑清;王先兵;陈刚;张华;王明刚
作者机构:
空天信息安全与可信计算教育部重点实验室(武汉大学),武汉 430072;武汉大学计算机学院,武汉 430072;遵义铝业股份有限公司,贵州遵义563100
文献出处:
引用格式:
[1]吕剑清;王先兵;陈刚;张华;王明刚-.面向工业生产的中文Text-to-SQL模型)[J].计算机应用,2022(10):2996-3002
A类:
B类:
Text,SQL,自然语言查询,语句,模型迁移,工业数据集,可解释,名列,列名,问句,关键信息,表示形式,致以,匹配率,变低,迁移过程,数据使用,元数据,语言表达方式,相对位置,自注意力模型,接通,信息识别,where,子句,value,微调,基于变换器的双向编码器表示技术,BERT,结构预测,铝冶炼行业,测试集,Spider,流模型
AB值:
0.307091
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。