基于NashCC-Q学习的两交叉口信号灯协调控制（上）_天道酬勤

摘要：提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念，相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上，将Q值函数的更新建立在Nash合作博弈中提出的Nash“公理方法”求博弈谈判解的基础上，进而解决合作博弈的问题，实现两交叉口信号灯协调控制。采用Paramics仿真软件进行仿真，结果表明该方法的有效性。

引言

先进的城市交通控制技术是将智能控制的相关研究成果应用于解决交通控制问题。从发展的角度看，交通控制方法可以递阶地分为：单交叉控制、干道控制和区域协调控制。其中单交叉口信号灯控制是基础，相邻两交叉口信号灯之间的协调控制是干线协调和区域协调控制的基础问题，倍受人们的xx。目前，实现两交叉口之间协调控制的基本思路是综合考虑路口间的相互影响，将另外交叉路口的交通流状态作为本交叉路口调整信号灯配时方案的考虑因素，以获得整体通行能力的提高。所采用的方法主要以模糊控制和神经元网络控制为主，在控制结构上主要采用递阶控制结构。但这两种控制方法在一定程度上不能适应多变的交通流特征。模糊控制缺乏自学习能力，对环境的适应能力不强；神经元网络控制虽然对非线性系统和难以建模的系统具有很好的映射功能和学习功能，但它对信号控制系统硬件的计算能力和速度有很高的要求。

人们希望寻求一种不需要建立xx的数学模型，但可以感知环境变化，具有自学习、自寻优能力的交通控制系统。目前，机器学习中的强化学习在智能机器人领域、运筹学领域以及智能控制领域的成功应用，激发了其在交通控制领域的研究与应用。强化学习可以很好地解决单交叉口信号灯控制问题，具有在线学习的功能。但根据Q学习本身的特征，它主要是研究单个学习系统与环境交互的强化学习方法，对于多交叉口信号灯控制问题不是十分适用。分布式Q学习可以解决多交叉口协调控制问题，但它并没有把其他交叉口看作一个理性个体，而是被动地参与该路口的决策。

而现在兴起的博弈论主要研究多个理性参与者之间的相互协调和合作关系，为多智能体交互的研究提供了一个可靠的数学框架。将强化学习和博弈论相结合，根据不同博弈类型以及对Q值函数的定义形式不同，可以分为Minimax-Q，Nash-Q，Friend-or-Foe-Q，CE-Q等，后两种是对Nash-Q学习算法的改进。Minimax-Q不能解决非零和博弈问题；而Nash-Q，Friend-or-Foe-Q，CE-Q等只能解决非合作博弈问题。而两交叉口信号灯之间的协调控制问题，由于他们之间信息的开放性，可以组成联盟，整体考虑，争取两交叉口整体以及单个交叉口的{zy}性能，故应该符合二人非零和合作型博弈类型。所以对于以上所提的各种方法都不太适用。同时，对于Nash-Q学习算法，在求解Nash平衡解时，存在多重性和无效性，也是Nash-Q学习算法有效应用的瓶颈。

本文提出了一种NashCC-Q学习算法，CC代表COORPERATION&COORDINATION合作&协调。这里Q学习算法中Q值函数的更新是采用Nash有关合作博弈中提出的Nash“公理方法”求解博弈谈判解，以此作为Q值更新基础，进而解决合作博弈解问题，实现两交叉口信号灯协调控制，保证全局利益的{zd0}化。

2 、NashCC-Q学习算法

2.1、基本Q学习算法

Q学习算法作为强化学习的一种，适用于MDP意义下的{zy}动作选择。给定一个策略π，定义Q值为：

Q学习的实现方法是按照递归公式进行的：在每一时间步n，观测当前状态S，根据一定原则选择并执行行为a，再观测后继状态a以及及时奖赏r，然后根据下式调整Q_n-1值：

其中，a_n为学习因子。Watkins证明了当学习因子满足一定的条件时，Q学习算法必定收敛在{zy}解。

Q学习算法的实现采用两种方法：一种是神经元网络方法；另一种是采用Lookup表格方法。本文采用神经网络实现Q学习，网络的输出对应每个动作的Q值，网络的输入对应描述环境的状态。

每个网络的输出对应一个动作的Q值，即Q (a ,s)，根据递归Q学习算法的公式（2），学习阶段误差信号为：

其中，ΔQ通过调整网络权值，使误差尽可能小，最终得到{zy}策略所对应的Q值。

在基本Q学习算法中，Q值的更新是根据贝尔曼方程，采用选择自身{zd0}的Q值进行优化更新的方法。它只是对自己本身行为的优化，即使考虑其他个体的影响，也是将其他个体看作是自己环境中的一部分去影响自身的Q值，不存在个体之间理性的交互过程。但对于两个或两个以上理性参与者，Q值函数可以采用所有参与人的联合行动函数。Q值的更新需要联合考虑，更新过程不再是“自恋”式的只xx自身{zy}化行为，而是采用博弈谈判解来决定几个有关参与人之间的联合{zy}化行为。

2.2、 NashCC-Q学习算法

Hu等1998年提出Nash-Q，它将Q学习和非零和非合作博弈相结合，利用Nash平衡解定义Q值函数，从而解决多智能体之间的学习、协调问题。首先给出Nash-Q学习算法的完整表达。

应用以上公理方法所得到的谈判解经证明是{wy}的。

根据Nash“公理方法”，可以求得合作解，从而解决建立在合作解之上的参与人之间的合作协调问题。

在根据Q值进行行为选择时，可以采用对于单个参与者使用“贪婪策略”和“探索策略”。而本文则仍然采用Nash“公理方法”求解合作博弈解，然后得到相应的行为组合用来作为选择方案的依据。

作者：赵晓华李振龙于泉李云驰