[强化学习] ε-贪心算法中的最优解的分布函数

Qianying's Balcony

2020-08-24

Algorithm › machine learning

[Reinforcement learning] Distribution function of the optimal solution in Epsilon-Greedy

任一环节，解集（动作集）A={解1，解2，解3，……，解i，……，解n-1，解n}，其中|A|=n。

不妨假定最优解为x。

在选择解时，按照概率有两种选择策略：

其一，均匀随机选择，也叫非贪心选择，选用此策略的概率为ε。

其二，直接选择最优解，也叫贪心选择，选用此策略的概率为1-ε。

现在我们需要解出在此环节中每个解被选中的概率分布。

在均匀随机选择（非贪心选择）的情况下，每个解被选中的概率为ε/|A|（包括最优解“x”和A中其他非最优解）。即在均匀随机选择（非贪心选择）的情况下，最优解“x”被选中的概率为ε/|A|，每一个非最优解被选中的概率也是ε/|A|。
在直接选择最优解（贪心选择）的情况下，最优解“x”被选择的概率为1-ε，其他非最优解被选中的概率为0。

故最优解“x”被选中的概率为1-ε+ε/|A|。则概率分布函数为