毕设

Q-learning之前的关于强化学习的一些前置知识

状态 state

状态空间 state space

动作 action

动作空间 action space

智能体 agent

环境 environment

策略 policy

奖励 reward

状态转移 state transition

回报 奖励的和(加权和,如果有折扣率的话),注意和奖励的区别,强化学习的目的是最大话回报而不是最大化奖励

马尔可夫过程 老朋友了,信息论啥的一直会碰见。