首站-论文投稿智能助手
典型文献
改进的基于Transformer的双向编码器的对话文本识别
文献摘要:
使用预训练语言模型基于Transformer的双向编码器(bidirectional encoder representation from transformers,BERT)进行文本分类可以帮助民警快速准确地提取电子数据.针对将输入序列的起始符[CLS]位对应的隐含层表示作为句向量输入到全连接层中进行分类会产生一部分语义信息的丢失从而导致分类准确率下降的问题.提出BERT-CNN-SE模型,即在BERT后接一个语义特征提取器以充分利用高层的语义信息,利用不同大小的二维卷积核对BERT输出的隐藏状态进行卷积,然后通过共享权重的挤压和激励(squeeze-and-excitation,SE)模块对通道进行加权,最大池化层后联结起来,最后输入到全连接层进行分类.在自建的涉案对话文本数据集和公开数据集THUCNews上进行测试,改进BERT模型的准确率达到了88.58%和93.64%.结果表明,与BERT基线模型和其他分类模型相比,改进BERT模型具有更好的分类效果.
文献关键词:
电子数据取证;文本分类;对话文本;BERT
作者姓名:
张杨帆;丁锰
作者机构:
中国人民公安大学侦查学院, 北京100038;中国人民公安大学公共安全行为科学实验室,北京100038
文献出处:
引用格式:
[1]张杨帆;丁锰-.改进的基于Transformer的双向编码器的对话文本识别)[J].科学技术与工程,2022(29):12945-12953
A类:
B类:
Transformer,双向编码器,对话文本,文本识别,预训练语言模型,bidirectional,encoder,representation,from,transformers,BERT,文本分类,民警,快速准确,CLS,隐含层,句向量,全连接层,部分语义,语义信息,分类准确率,SE,语义特征,同大,二维卷积,卷积核,核对,行卷,squeeze,excitation,最大池化,结起来,层进,涉案,文本数据,公开数据集,THUCNews,基线模型,分类模型,分类效果,电子数据取证
AB值:
0.461498
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。