[强化学习] ε-贪心算法中的最优解的分布函数
[Reinforcement learning] Distribution function of the optimal solution in Epsilon-Greedy
任一环节,解集(动作集)A={解1,解2,解3,……,解i,……,解n-1,解n},其中|A|=n。
不妨假定最优解为x。
在选择解时,按照概率有两种选择策略:
其一,均匀随机选择,也叫非贪心选择,选用此策略的概率为ε。
其二,直接选择最优解,也叫贪心选择,选用此策略的概率为1-ε。
现在我们需要解出在此环节中每个解被选中的概率分布。
- 在均匀随机选择(非贪心选择)的情况下,每个解被选中的概率为ε/|A|(包括最优解“x”和A中其他非最优解)。即在均匀随机选择(非贪心选择)的情况下,最优解“x”被选中的概率为ε/|A|,每一个非最优解被选中的概率也是ε/|A|。
- 在直接选择最优解(贪心选择)的情况下,最优解“x”被选择的概率为1-ε,其他非最优解被选中的概率为0。
故最优解“x”被选中的概率为1-ε+ε/|A|。则概率分布函数为