首站-论文投稿智能助手
典型文献
面向混叠文字检测的单向投影Transformer方法
文献摘要:
针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测.首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化.在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score(IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用.
文献关键词:
计算机视觉;深度学习;场景文字检测;混叠文字;投影;Transformer算法
作者姓名:
冯智达;陈黎
作者机构:
武汉科技大学计算机科学与技术学院, 武汉 430065;智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学), 武汉 430065
文献出处:
引用格式:
[1]冯智达;陈黎-.面向混叠文字检测的单向投影Transformer方法)[J].计算机应用,2022(12):3686-3691
A类:
混叠文字,SDPT,SynText,RealText,IoU75,场景文字检测
B类:
Transformer,性能下降,文本检测,使用深度,深度残差网络,特征金字塔网络,FPN,多尺度特征,利用水平,特征图,送入,文本行,联合优化,合成数据集,BDD,真实数据,PSENet,检测算法,骨干网络,ResNet50,Score,少提,百分点,检测性能,性能改善,计算机视觉
AB值:
0.255119
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。