典型文献
基于深度强化学习的电力市场虚拟投标策略
文献摘要:
针对电力现货市场中日前(day-ahead,DA)市场和实时(real-time,RT)市场的价格差异导致的市场运行风险大、效率低等问题,可采用虚拟投标(virtual bidding,VB)对未知分布的日前和实时价差进行套利,以促进二者的价格趋同.从时空维度搭建虚拟投标的市场架构,将虚拟投标划分为机组型和负荷型2种类别,以虚拟投标者累积收益最大化为目标,建立含预算约束的多区域多时段虚拟投标模型,该模型可表述为经典的0-1背包问题.同时,采用条件风险价值工具量化风险偏好、规避、中立3种类型的虚拟投标者所面临的风险,建立考虑风险度量的电力市场虚拟投标策略模型.针对这一问题的求解,构建深度强化学习(deep reinforcement learning,DRL)网络框架,通过设计合理的状态、动作空间及奖励函数,并利用深度Q网络与环境交互,获得信息反馈并优化神经网络参数,实现对最优投标策略的有效求解.利用美国PJM电力市场2018年6—12月数据计算虚拟投标者的累积收益和夏普比率,并与贪心算法、动态规划等方法进行对比,验证了该文模型和算法的有效性、优越性.
文献关键词:
虚拟投标;0-1背包问题;深度强化学习;条件风险价值;夏普比率
中图分类号:
作者姓名:
韩冬;黄微;严正
作者机构:
上海理工大学电气工程系,上海市 杨浦区 200093;上海交通大学电气工程系,上海市 闵行区 200240
文献出处:
引用格式:
[1]韩冬;黄微;严正-.基于深度强化学习的电力市场虚拟投标策略)[J].中国电机工程学报,2022(04):1443-1454,中插18
A类:
虚拟投标
B类:
深度强化学习,电力市场,投标策略,电力现货市场,日前,day,ahead,DA,real,价格差,市场运行,运行风险,virtual,bidding,VB,未知分布,时价,价差,套利,趋同,时空维度,累积收益,收益最大化,预算约束,多区域,多时段,背包问题,条件风险价值,风险偏好,中立,风险度量,deep,reinforcement,learning,DRL,网络框架,动作空间,奖励函数,信息反馈,优化神经网络,网络参数,PJM,数据计算,夏普比率,贪心算法,动态规划,和算
AB值:
0.37543
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。