10.6.2 区分探索式和利用式学习平衡的两种场景