典型文献
基于编解码器的电力施工场景可控图像字幕生成
文献摘要:
电力施工场景图像字幕生成采用基于深度学习的编解码技术理解图像信息,并转换为文字描述输出,从而预警安全隐患,丰富了传统图像分析技术的输出形式.传统图像字幕生成方法缺乏可控性且细节描述不充分,针对电力施工场景图像描述的研究匮乏.为此,该文提出一种基于编解码器的可控图像字幕生成优化方法.引入新的特征提取模型,以FVC R-CNN(faster and visual commonsense region-convolutional neural network)模型作为编码器,提取图像的显著特征和视觉常识特征,并改进激活函数以得到改进的基于M-tanh的长短时记忆(M-tanh long short-term memory,MT-LSTM)神经网络用于特征解码,最后通过多分枝决策策略优化输出.在Ubuntu16.04和PyTorch深度学习框架下对电力场景描述数据集进行了训练和测试,实验结果表明图像字幕生成准确率不仅得到显著提高,而且增强了场景描述的可控性,可有力提升电力施工现场的安全管理智能化水平.
文献关键词:
电力施工场景;可控图像字幕;FVC R-CNN模型;MT-LSTM神经网络;激活函数;多分枝决策策略
中图分类号:
作者姓名:
杨润霞;邵洁;罗岩;白万荣
作者机构:
上海电力大学电子与信息工程学院,上海市 浦东新区 201306;国网甘肃省电力公司电力科学研究院,甘肃省 兰州市 730050
文献出处:
引用格式:
[1]杨润霞;邵洁;罗岩;白万荣-.基于编解码器的电力施工场景可控图像字幕生成)[J].电网技术,2022(07):2572-2580,中插14
A类:
可控图像字幕,commonsense,视觉常识,多分枝决策策略,Ubuntu16
B类:
编解码器,电力施工场景,场景图像,编解码技术,图像信息,文字描述,图像分析技术,生成方法,可控性,图像描述,提取模型,FVC,faster,visual,region,convolutional,neural,network,编码器,显著特征,激活函数,tanh,长短时记忆,long,short,term,memory,MT,征解,策略优化,PyTorch,深度学习框架,电力场景,电力施工现场,管理智能化,智能化水平
AB值:
0.263784
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。