Q-learning之前的关于强化学习的一些前置知识
状态 state
状态空间 state space
动作 action
动作空间 action space
智能体 agent
环境 environment
策略 policy
奖励 reward
状态转移 state transition
回报 奖励的和(加权和,如果有折扣率的话),注意和奖励的区别,强化学习的目的是最大话回报而不是最大化奖励
马尔可夫过程 老朋友了,信息论啥的一直会碰见。
Q-learning之前的关于强化学习的一些前置知识
状态 state
状态空间 state space
动作 action
动作空间 action space
智能体 agent
环境 environment
策略 policy
奖励 reward
状态转移 state transition
回报 奖励的和(加权和,如果有折扣率的话),注意和奖励的区别,强化学习的目的是最大话回报而不是最大化奖励
马尔可夫过程 老朋友了,信息论啥的一直会碰见。
hi
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
1 | $ hexo new "My New Post" |
More info: Writing
1 | $ hexo server |
More info: Server
1 | $ hexo generate |
More info: Generating
1 | $ hexo deploy |
More info: Deployment