强化学习的通俗理解

定义
强化学习,是在与环境的互动当中,为了达成一个目标而进行的学习过程

第一层主体
三个要素
agent-与环境互动的主体
environment-环境
goal-目标

游戏(环境)的玩法
玩家的目标

第二层主体
强化学习的过程主要是围绕这三个要素展开
state 状态
action 行动
reward 奖励

比如
玩家和环境会处于某种状态state,对于策略类游戏来说,其状态自然就是战场信息

在一个状态之下,玩家需要做出某种行动,即action,根据当前的战场信息,玩家要决定军队的部署与生产资源的配置

reward指agent在一个状态(state)下采取行动后得到的反馈(reward),在强化学习中,reward通常是一个实数,并且可能是0

比如,只有赢得这场战争才能得到一个大于0的分值,可以人为规定,胜利的奖励为1,败北或者和谈收场的奖励为0,而在战争结束之前,任何一次的行动得到的奖励实际上都为0

这个奖励要适当设置,比如我们策略游戏的胜利条件是完整拿下地盘,而不是尽可能地消灭敌方军队,那么就不能把消灭敌方单位获得地分数设置的太高,以免我们的算法更加倾向于消灭地方军队而不是抢地盘

由此我们只要使得我们的算法的得分予以最大化即可,最大化总的奖励,就是强化学习的目的

奖励是一个即时的反馈,而目标是一个长远的结果

第三层主体,核心部分
policy 策略-指在某一状态下改采取什么样的行动,用编程的思想去理解就是,在这一步,要调用什么样的函数
value 价值-价值同样是一个函数,价值函数同样函数,策略函数就取决于价值函数,价值函数有两种,第一种就是state value 状态价值函数
,其输入是一个状态,输出是一个实数,该实数就是该状态的价值,价值的含义,指的是预期将来会得到的所有奖励之和,即处于当前的状态下,玩家能得到的所有奖励的一个期望值
而玩家的目标就是让价值尽可能地大,通过状态价值函数,玩家应该选择进入价值尽可能大的状态,而这是通过特定行动实现的,这就是状态价值函数决定了玩家的策略

另一个函数被称之为state-action-value 状态行动价值函数,指的是,在特定状态下采取某种行动所具有的价值,根据状态行动价值函数,玩家应该选择价值最高的行动

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐