典型文献
基于多级特征选择的自然场景文本识别算法
文献摘要:
针对现有场景文本识别方法只关注局部序列字符分类,而忽略了整个单词全局信息的问题,提出了一种多级特征选择的场景文本识别(multilevel feature selection scene text recognition,MFSSTR)算法.该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征和语义特征.在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel at-tention selection decoder,MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制将新的特征空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测,同时在训练过程中引入中间监督,逐渐细化文本预测.实验结果表明,本文算法在多个公共场景文本数据集上识别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%.
文献关键词:
场景文本识别;特征序列;自注意力机制;多级注意力选择解码器;中间监督
中图分类号:
作者姓名:
李利荣;张开;张云良;乐玲;周蕾;巩朋成
作者机构:
湖北工业大学电气与电子工程学院,湖北武汉430064;新能源及电网装备安全监测湖北省工程研究中心,湖北武汉430064
文献出处:
引用格式:
[1]李利荣;张开;张云良;乐玲;周蕾;巩朋成-.基于多级特征选择的自然场景文本识别算法)[J].光电子·激光,2022(05):479-487
A类:
MFSSTR,多级注意力选择解码器,中间监督,SVTP
B类:
多级特征,特征选择,自然场景文本识别,识别算法,关注局部,字符,单词,全局信息,multilevel,feature,selection,scene,text,recognition,堆叠,块体,体系结构,视觉特征,上下文特征,语义特征,tention,decoder,MASD,特征拼接,特征空间,自注意力机制,特征序列,内部联系,训练过程,公共场景,文本数据,识别准确率
AB值:
0.298144
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。