基于多智能体Nash-Q强化学习的综合能源市场交易优化决策

发布时间：2021-05-30 16:23所属平台：学报论文发表咨询网浏览：次

摘要：目前求解综合能源市场多参与主体竞价博弈问题普遍采用数学推导法与启发式算法，但两类方法均需以完全信息环境为前提假设，同时前者忽略市场参与者非凸非线性属性，后者易陷入局部最优解。为此,引入多智能体Nash-Q强化学习算法，将市场参与主体构建成智

　　摘要：目前求解综合能源市场多参与主体竞价博弈问题普遍采用数学推导法与启发式算法，但两类方法均需以完全信息环境为前提假设，同时前者忽略市场参与者非凸非线性属性，后者易陷入局部最优解。为此,引入多智能体Nash-Q强化学习算法，将市场参与主体构建成智能体，经由智能体在动态市场环境中反复探索与试错方式寻找博弈均衡点。首先，构建竞价决策-市场出清双层迭代的电-气综合能源市场交易框架。其次，在竞价决策层中通过博弈理论构建市场参与主体间的利益关系模型，采用多智能体Nash-Q强化学习算法优化参与主体竞价策略;在市场出清层中联合博弈竞价策略共同求解得到交易Nash均衡解。最后，通过算例仿真验证了所提方法的有效性和准确性。

　　关键词：综合能源市场;市场出清;多主体博弈;Nash均衡;多智能体强化学习

能源市场

　　0引言

　　随着经济的发展，低效、粗犷的能源利用方式与资源、环境间的矛盾逐步加深。打破现有能源体系行业壁垒，构建综合能源交易市场，从市场角度切入，以价格激励为手段，通过实际供需关系促进能源综合利用和高效配置具有重要意义[1-2]。

　　综合能源市场涉及多主体间的利益关系，影响因素众多，各主体既会相互影响，又会不断观察和学习来调整自身行为，进而推动整个系统交易演化，整体是一个复杂适应性问题[3-5]。针对该问题，已有学者采用博弈理论构建市场交易竞价框架[6-11]，其中文献[8]建立综合能源服务商双层博弈模型，通过Karush-Kuhn-Tucker(KKT)条件转化为单层模型优化求解。

　　文献[9]提出综合能源市场出清机制，采用对角算法研究计及供应侧策略投标的市场均衡。文献[10]采用双层粒子群算法求解多方博弈竞价均衡问题。文献[11]基于Stackelberg博弈理论建立不同能源交易决策模型并利用改进粒子群算法求解。上述研究普遍采用数学推导法和启发式算法优化求解，其中前者忽略市场参与主体非凸非线性属性，通过KKT条件将双层模型转换为具有平衡约束的单层模型求解，致使与实际问题间存在建模残差[12]。后者虽无须建立精确博弈关系模型，但仅基于简单生物群体行为寻优易陷入局部最优解，无法保证与Nash均衡解的一致性[13]。

　　同时两类方法均存在以下弊端：①须以完全信息环境作为前提假设，与实际交易存在差异;②不具有记忆特性，无法充分利用历史信息，每次求解均为独立过程。强化学习作为新型人工智能算法，可通过在动态环境中反复探索与试错的方式求解问题，对精确数学模型、完整信息以及参数设置要求较低，这为求解复杂系统优化决策问题提供了可能[14-16]。文献[17]提出了基于强化学习的并网型综合能源微网调度模型。文献[18]采用强化学习研究综合能源系统(integratedenergysystem，IES)动态经济调度。文献[19]基于强化学习研究家庭IES需求响应优化。

　　虽然强化学习为复杂系统决策提供了重要求解工具，但目前未见其在综合能源交易领域有详细研究，同时已有研究普遍将对象简化为单一智能体与固定环境间的交互学习，然而实际综合能源交易市场是多主体复杂交互适应系统，如何将多智能体强化学习应用于综合能源交易市场还尚有不足。为此本文在多智能体强化学习基础上结合博弈论，利用博弈强化学习协调综合能源市场交易。主要贡献归纳如下：①构建了“竞价博弈-市场出清”电-气综合能源市场双层交易框架;②利用多智能体Nash-Q强化学习优化求解电-气综合能源市场竞价博弈问题。

　　1电-气综合能源市场多智能体划分及交易框架

　　市场环境下能源供给、交易、消耗过程存在多个参与主体。供给层面中电能、天然气供应商满足能源供给;交易层面中电-气综合能源交易市场服务商作为纽带，汇集能源供应商的投标价格与综合能源系统运营商(integratedenergysystemoperator，IESO)的能源需求，按社会福利最大化进行市场出清。消耗层面中IESO聚合多个IES的能源需求，在市场上购买能源。鉴于多参与主体分属于不同利益集团，有着各自运行目标、用户需求、控制手段等，但彼此之间利益联系紧密;同时为配合后续强化学习应用，将市场参与者划分为以下智能体：电能供应商、天然气供应商、电-气综合能源交易市场服务商以及IESO。

　　1)竞价决策层中能源供应商报价过程、运行成本、收益函数等信息不公布，是在不完全信息环境下向市场服务商提交投标价格与容量以进行非合作竞价博弈。2)市场出清层中市场服务商汇集能源供应商报价信息和IESO能源需求信息进行市场出清，决定各能源供应商中标容量及收益。基于上述交易机制作如下假设：①参与主体皆为理性，即合理寻求自身决策目标最大化;②短时间内能源供应和负荷不产生变化;③博弈过程中仅考虑价格影响，暂不考虑其他因素。

　　2电-气综合能源市场双层优化决策模型

　　2.1竞价决策层综合能源市场由多参与主体构成，各方更多地考虑自身经济性，致使传统集中优化方法难以执行。鉴于博弈论作为解决不同主体利益冲突的有效工具[20]，本文在竞价决策层中建立多智能体非合作博弈决策模型：G=g (1)式中：G为博弈均衡点;g(⋅)为博弈函数;N为智能体数量;S为策略集合;U为效益函数集合。

　　2.1.1博弈参与者依据智能体划分标准将竞价决策层中的博弈参与主体确定为电能供应商和天然气供应商。

　　2.1.2博弈策略电能供应商博弈策略为电能投标价格和投标电量;天然气供应商博弈策略为天然气投标价格和投标气量。

　　2.1.3效益函数2.1.3.1电能供应商1)投标价格制定园区IES是中国用户侧参与市场交易改革试点，采用包含利润和边际成本的功率价格曲线竞价有助于提高能源利用率[21];电能供应商运行边际成本随出力上升而增大，需针对不同类型机组按自身边际成本函数制定功率-价格曲线[22];同时考虑到调节斜率使得竞价变动较大，故而采用了变截距方式，即交易中电能供应商通过市场服务商接收IESO的能源购买信息。

　　2.2市场出清层

　　2.2.1市场出清决策模型

　　相较于竞价决策层寡头博弈，市场出清层中园区IES数量较多，结构规模相对简单，致使存在以下问题。

　　1)部分园区IES不满足市场准入条件，无法进入市场交易。

　　2)所有园区IES参与市场交易导致市场参与者过多，难以管理。故而采用市场分层管理模式，暂不考虑单一园区IES策略性投标，而是将多个园区IES经由Energyhub形式构建成一个聚合IES，该IES参与竞价博弈-市场出清双层模型优化求解;其次聚合IES内部存在能源分配环节，将获得的能源按策略分配给各个园区IES。在此基础上电-气综合能源市场服务商汇集各参与主体投标信息，以最大化电、气供需总体社会福利作为市场出清目标。

　　3多智能体Nash-Q强化学习求解流程

　　3.1应用框架

　　将多智能体强化学习与博弈理论相结合，采用多智能体Nash-Q强化学习构建电-气综合能源市场多参与主体竞价博弈应用框架。首先利用历史统计数据构建模拟环境，基于Nash-Q强化学习算法对多智能体进行预训练，初步建立智能体对环境的认知和决策能力;其次借助文献[23]迁移学习将学习到的经验库迁移到实际环境中，提高智能体对实际环境的快速适应和准确决策能力。同时可利用实际环境数据定期更新经验库，持续优化智能体Q表，不断强化智能体实时决策性能。

　　3.2学习过程

　　3.2.1联合状态空间

　　区别于单一智能体强化学习，多智能体Nash-Q强化学习需通过联合状态空间表示，将电能、天然气供应商价格截距se(t)和sg(t)作为状态变量，依据文献[24]将其离散化为区间形式，每段区间定义为一个状态，可确定多智能体联合状态空间S(t)={se(t)，sg(t)}。

　　3.2.2联合动作空间

　　动作主要表现为能源供应商售能价格调整，依据市场运营限定的售能价格上下限，以步长为1在上一轮售能价格基础上浮动，第m+1次博弈过程中可选择动作集合Am+1={am-1，am，am+1}，其中am表示第m次博弈过程所选动作。

　　4算例分析

　　4.1算例概况

　　在Python编译环境中构建模型，数据来源于国内某重点项目园区，其中以Energyhub形式构建的IES，电、热、气负荷需求曲线;光伏、风电日前预测出力曲线;IES所含设备类型和参数见附录;设备运行维护费用能源供应商运行成本系数;多智能体Nash-Q强化学习算法参数。强化学习训练数据通过设定不同的能源供应商初始状态持续与环境交互来模拟获得。以1h为一个时段进行日前市场交易决策与电、热、气供需平衡分析。

　　4.2预学习结果分析

　　4.2.1Nash均衡存在性证明在预学习过程中能源供应商不断交互，不同能源供应商的Q值Qe和Qg最终会收敛到Nash均衡。

　　电机论文投稿刊物：《中国电机工程学报》(旬刊)是中国电力行业的一流学术期刊，国家一级学报，全国中文核心期刊，国内外公开发行。1964年创刊，中国科协主管，中国电机工程学会主办，中国电科院协办。主要报道电力系统及其自动化、发电及动力工程、电工电机领域的新理论、新方法、新技术、新成果。

　　5结语

　　本文构建了“竞价决策-市场出清”综合能源市场交易框架，经由“离线训练+在线应用”方式验证了多智能体Nash-Q强化学习方法的有效性，最后经由算例分析得出如下结论。

　　1)基于Nash-Q强化学习方法构建的智能体可在不完全信息环境中通过反复探索与试错方式求解综合能源市场交易博弈问题。2)多智能体Nash-Q强化学习方法与数学推导算法、启发式算法相比在求解精度和时间方面具有更高的实际应用价值。随着人工智能技术不断发展，使用人工智能进行能源市场交易决策必将得到越来越多的重视。未来可在本文基础上进一步研究多智能体深度强化学习在综合能源市场交易领域中的应用。

　　参考文献

　　[1]谈金晶，李扬.多能源协同的交易模式研究综述[J].中国电机工程学报，2019，39(22)：6483-6496.TANJinjing，LIYang.Reviewontransactionmodeinmultienergycollaborativemarket[J].ProceedingsoftheCSEE，2019，39(22)：6483-6496.

　　[2]万灿，贾妍博，李彪，等.城镇能源互联网能源交易模式和用户响应研究现状与展望[J].电力系统自动化，2019，43(14)：29-40.WANCan，JIAYanbo，LIBiao，etal.Researchstatusandprospectofenergytradingmodeanduserdemandresponseinurbanenergyinternet[J].AutomationofElectricPowerSystems，2019，43(14)：29-40.

　　[3]唐成鹏，张粒子，刘方，等.基于多智能体强化学习的电力现货市场定价机制研究(一)不同定价机制下发电商报价双层优化模型[J/OL].中国电机工程学报[2020-10-23].https：//doi.org/10.13334/j.0258-8013.pcsee.191550.TANGChengpeng，ZHANGLizi，LIUFang，etal.Researchonpricingmechanismofelectricityspotmarketbasedonmultiagentreinforcementlearning，PartI：bi-leveloptimizationmodelforgeneratorsunderdifferentpricingmechanisms[J/OL].ProceedingsoftheCSEE[2020-10-23].https：//doi.org/10.13334/j.0258-8013.pcsee.191550.

　　[4]张粒子，唐成鹏，刘方，等.基于多智能体强化学习的电力现货市场定价机制研究(二)结合理论与仿真的定价机制决策框架[J/OL].中国电机工程学报[2020-10-28].https：//doi.org/10.13334/j.0258-8013.pcsee.191552.

　　作者：孙庆凯，王小君，王怡，张义志，刘曌，和敬涵

转载请注明来源。原文地址：http://www.xuebaoqk.com/xblw/6548.html

《基于多智能体Nash-Q强化学习的综合能源市场交易优化决策》

上一篇：基于智能手机的便携式毛细管电泳装置检测消毒剂中2种季铵盐
下一篇：试述建筑工程造价咨询对造价控制的影响

基于多智能体Nash-Q强化学习的综合能源市场交易优化决策

学报论文发表期刊

热点学报

学报问题

热点问题