[强化学习] ε-贪心算法中的最优解的分布函数

[Reinforcement learning] Distribution function of the optimal solution in Epsilon-Greedy

任一环节,解集(动作集)A={解1,解2,解3,……,解i,……,解n-1,解n},其中|A|=n。

不妨假定最优解为x。

​ 在选择解时,按照概率有两种选择策略:

​ 其一,均匀随机选择,也叫非贪心选择,选用此策略的概率为ε。

​ 其二,直接选择最优解,也叫贪心选择,选用此策略的概率为1-ε。

现在我们需要解出在此环节中每个解被选中的概率分布。

  1. 在均匀随机选择(非贪心选择)的情况下,每个解被选中的概率为ε/|A|(包括最优解“x”和A中其他非最优解)。即在均匀随机选择(非贪心选择)的情况下,最优解“x”被选中的概率为ε/|A|,每一个非最优解被选中的概率也是ε/|A|。
  2. 在直接选择最优解(贪心选择)的情况下,最优解“x”被选择的概率为1-ε,其他非最优解被选中的概率为0。

故最优解“x”被选中的概率为1-ε+ε/|A|。则概率分布函数为

image-20200824152221326