Self-organizing Map

自组织特征映射SOM 引言:SOM是一种典型的“无监督学习”模型,一般用法是将高维的input data在低位空间表示,也是一种降维方法。 值得注意的是在《Few-Shot Class-Incremental Learning》这篇论文中,作者提出的是 Topology-preserving Knowledge Incremental framework也是一种自适应的聚类算法,但它的创新点在于incremental learning,可以为新增的分类来增加特征空间的质点,并不改变原有的拓扑结构。 除SOM之外,其他常见的自组织(竞争型)神经网络还有Counter propogation and Adaptive Resonance Theory等 生物学背景 生物学研究表明,在人脑的感觉通道上,神经元的组织原理是有序排列的。当外界的特定时空信息输入时,大脑皮层的特定区域兴奋,而且类似的外界信息在对应的区域是连续映像的。生物视网膜中有许多特定的细胞对特定的图形比较敏感,当视网膜中有若干个接收单元同时受特定模式刺激时,就使大脑皮层中的特定神经元开始兴奋,输入模式接近,与之对应的兴奋神经元也接近;在听觉通道上,神经元在结构排列上与频率的关系十分密切,对于某个频率,特定的神经元具有最大的响应,位置相邻的神经元具有相近的频率特征,而远离的神经元具有的频率特征差别也较大。大脑皮层中神经元的这种响应特点不是先天安排好的,而是通过后天的学习自组织形成的。 SOM模拟了生物神经系统的侧抑制现象,一个神经细胞兴奋以后,会对周围其他神经细胞产生抑制作用。 在网络结构上来看,它的经典范式非常简单: 一层输入层 一层竞争层 两层之间各神经元实现双向连接,竞争层之间的神经元还存在横向连接。 在学习算法上,不同于MLP以网络误差为训练准则,而是模拟生物神经元之间的兴奋、协调与抑制、竞争作用的信息处理的动力学原理来指导网络的学习。 必须要说明的是如今的som网络设计可以突破传统的结构,我觉得引入reservoir network等网络可以做到更多的事情。 竞争学习的概念与原理 Winner-Take-All 规则就是网络的输出神经元之间相互竞争以求被激活,结果在每一时刻只有一个输出神经元被激活。 我在这里想到了Decision-making model的相关特性,相邻神经元之间使用动力学方程建立相互作用的过程,我认为这种建模方式更有生物可解释性,从那篇gait recognition论文中也可以看出优势。 对于SOM,获胜神经元的获取来源于权重向量和输入模式向量的相似性度量,最相似的权重向量判别为竞争获胜神经元。 对于知道哪个神经元获胜之后,我们可以调整神经元的输出和训练调整权重: 竞争学习的步骤为: 向量归一化 寻找获胜神经元 网络输出与权值调整 步骤3完成以后返回步骤1继续训练知道学习率衰减至0。 SOM 典型结构 SOM网权值调整

Decision Tree

原理 决策树模型与学习 决策树的内部节点表示一个特征或属性,叶节点表示一个类。 if-then规则:互斥且完备 本质: 从训练数据集中归纳出一组分类规则(估计出条件概率模型) 损失函数:正则化的极大似然函数 学习算法:启发式方法,得到(sub-optimal)的决策树 一、特征选择 准则:信息增益 熵: 设$X$是一个取有限个值的离散随机变量,定义为: $$H(X) = -\sum_{i=1}^n p_i\log p_i$$ 条件熵: 随机变量$X$给定的条件下随机变量$Y$的条件熵$H(Y|X)$,定义为: $$H(Y|X) = \sum_{i=1}^np_iH(Y|X=x_i)$$ 当熵和条件熵中的概率由极大似然估计得到时,分别成为经验熵和经验条件熵 信息增益:表示得知特征$X$的信息使得类$Y$的信息不确定性减少的程度。这种差值也称为互信息 $$g(D,A)=H(D)-H(D|A)$$ 特征选择方法:对训练数据集D,计算每一个特征的信息增益,选取信息增益最大的特征。 信息增益比 上述的特征选择存在偏向选择取值较多的特征的问题,使用information gain ratio可以解决这个问题。 定义为: $$g_R(D, A) = \frac{g(D,A)}{H_A(D)}$$ 其中,$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{D}\log_2\frac{|D_i|}{D} $,n是特征A的取值个数。 二、决策树的生成 ID3算法 C4.5算法的基础般,只用信息增益来选取特征。 C4.5算法 三、决策树的剪枝 决策树的生成很容易出现过拟合现象,所以需要利用剪枝(pruning)来简化决策树。 决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)来实现: $$C_{\alpha}(T)=\sum_{i=1}^{|T|}N_tH_t(T) + \alpha|T|=C(T)+\alpha|T|$$ 其中$|T|$表示树T的叶结点个数,t是树T的叶结点,该叶结点上有$N_t$个样本点,$\alpha \geq 0$为参数。 通过式子可以看出$C(T)$代表了模型对训练数据的预测误差,即拟合程度;而$\alpha|T|$代表了模型的复杂度,可以理解为正则化的方式来增强模型的泛化能力。 而树的剪枝算法分为: 预剪枝:不足是基于贪心策略,带来欠拟合的风险 后剪枝 后剪枝与动态规划类似,生成一棵完整的决策树以后,自底向上地对非叶节点进行考察,若剪完后损失函数变小,则进行剪枝。

Basic Concepts

统计学习概念辨析 一、基本分类 1. 监督学习 监督学习的本质是学习输入到输出的映射的统计规律。需要注意的有以下要点: 输入空间与特征空间不一定为相同的空间,有时会将实例从输入空间映射到特征空间 训练数据由输入(特征向量)与输出对组成 任务问题分类: 回归问题:输入变量与输出变量均为连续变量的预测问题 分类问题:输出变量为有限个离散变量的预测问题 标注问题:输入变量与输出变量均为变量序列的预测问题 $X$和$Y$具有联合概率分布就是监督学习关于数据的基本假设,即假设训练数据和测试数据是依联合概率分布$P(X,Y)$独立同分布产生的 假设空间的确定意味着学习范围的确定 2. 无监督学习 无监督学习的本质是学习数据中的统计规律或潜在结构,需要注意的有以下要点: 可以用于对已有数据的分析,也可以用于对未来数据的预测 要学习的模型可以表示为$z=g(x)$,条件概率分布$P(z|x)$,或者条件概率分布$P(x|z)$的形式 3. 强化学习 强化学习的本质是学习最优的序贯决策。在学习过程中,系统不断地试错,以达到学习最优策略的目的。 强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组$<S,A,P,r,\gamma>$组成: $S$是state集合 $A$是action集合 $P$是状态转移概率(transition probability)函数: $$P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a)$$ $r$是奖励函数(reward function): $$r(s,a)=E(r_{t+1}|s_t=s, a_t=a)$$ $\gamma$是衰减系数(discount factor): $$\gamma \in [0,1]$$ 马尔可夫决策过程具有马尔科夫性,下一个状态只依赖于前一个状态与动作,由状态转移概率函数$P(s'|s,a)$表示。下一个奖励依赖于前一个状态与动作,由奖励函数$r(s,a)$表示。 策略$\pi$:给定状态下动作的函数$a=f(s)$或者条件概率分布$P(a|s)$ 价值函数/状态价值函数:策略$\pi$从某一个状态$s$开始的长期累积奖励的数学期望: $$v_{\pi}(s)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\dots|s_t=s]$$ 动作价值函数:策略$\pi$从某一个状态$s$和动作$a$开始的长期累积奖励的数学期望: $$q_{\pi}(s,a)=E_{\pi}[r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\dots|s_t=s, a_t=a]$$ 强化学习的目标就是在所有可能的策略中选出价值函数最大的策略$\pi^*$。 强化学习的分类: policy-based 不直接学习模型,试图求解最优策略$\pi^*$。学习通常从一个具体策略开始,通过搜索更优的策略进行。 value-based 试图求解最有价值函数($q^*(s,a)$)。学习通常从一个具体价值函数开始,通过搜索更优的价值函数进行。 model-based 直接学习马尔科夫决策过程的模型,通过模型对环境的反馈进行预测。 4.