Basic Concepts
统计学习概念辨析 一、基本分类 1. 监督学习 监督学习的本质是学习输入到输出的映射的统计规律。需要注意的有以下要点:
输入空间与特征空间不一定为相同的空间,有时会将实例从输入空间映射到特征空间 训练数据由输入(特征向量)与输出对组成 任务问题分类: 回归问题:输入变量与输出变量均为连续变量的预测问题 分类问题:输出变量为有限个离散变量的预测问题 标注问题:输入变量与输出变量均为变量序列的预测问题 $X$和$Y$具有联合概率分布就是监督学习关于数据的基本假设,即假设训练数据和测试数据是依联合概率分布$P(X,Y)$独立同分布产生的 假设空间的确定意味着学习范围的确定 2. 无监督学习 无监督学习的本质是学习数据中的统计规律或潜在结构,需要注意的有以下要点:
可以用于对已有数据的分析,也可以用于对未来数据的预测 要学习的模型可以表示为$z=g(x)$,条件概率分布$P(z|x)$,或者条件概率分布$P(x|z)$的形式 3. 强化学习 强化学习的本质是学习最优的序贯决策。在学习过程中,系统不断地试错,以达到学习最优策略的目的。
强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组$<S,A,P,r,\gamma>$组成:
$S$是state集合 $A$是action集合 $P$是状态转移概率(transition probability)函数: $$P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a)$$ $r$是奖励函数(reward function): $$r(s,a)=E(r_{t+1}|s_t=s, a_t=a)$$ $\gamma$是衰减系数(discount factor): $$\gamma \in [0,1]$$ 马尔可夫决策过程具有马尔科夫性,下一个状态只依赖于前一个状态与动作,由状态转移概率函数$P(s'|s,a)$表示。下一个奖励依赖于前一个状态与动作,由奖励函数$r(s,a)$表示。
策略$\pi$:给定状态下动作的函数$a=f(s)$或者条件概率分布$P(a|s)$ 价值函数/状态价值函数:策略$\pi$从某一个状态$s$开始的长期累积奖励的数学期望: $$v_{\pi}(s)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\dots|s_t=s]$$ 动作价值函数:策略$\pi$从某一个状态$s$和动作$a$开始的长期累积奖励的数学期望: $$q_{\pi}(s,a)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\dots|s_t=s, a_t=a]$$ 强化学习的目标就是在所有可能的策略中选出价值函数最大的策略$\pi^*$。
强化学习的分类:
policy-based 不直接学习模型,试图求解最优策略$\pi^*$。学习通常从一个具体策略开始,通过搜索更优的策略进行。 value-based 试图求解最有价值函数($q^*(s,a)$)。学习通常从一个具体价值函数开始,通过搜索更优的价值函数进行。 model-based 直接学习马尔科夫决策过程的模型,通过模型对环境的反馈进行预测。 4.