3.4 应用到Q学习问题中