Q-learning之前的关于强化学习的一些前置知识
状态 state
状态空间 state space
动作 action
动作空间 action space
智能体 agent
环境 environment
策略 policy
奖励 reward
状态转移 state transition
回报 奖励的和(加权和,如果有折扣率的话),注意和奖励的区别,强化学习的目的是最大话回报而不是最大化奖励
马尔可夫过程 老朋友了,信息论啥的一直会碰见。
Q-learning之前的关于强化学习的一些前置知识
状态 state
状态空间 state space
动作 action
动作空间 action space
智能体 agent
环境 environment
策略 policy
奖励 reward
状态转移 state transition
回报 奖励的和(加权和,如果有折扣率的话),注意和奖励的区别,强化学习的目的是最大话回报而不是最大化奖励
马尔可夫过程 老朋友了,信息论啥的一直会碰见。