信息论基础(Information Theory Basics)
这一部分内容主要是PRML一书中1.6节的笔记。
信息论方面的一些知识在机器学习和模式识别上很有用,下面介绍一些基础,详细的信息论内容可以参考Viterbi and Omura,Cover and Thomas,Mackay。
约束优化问题(Constrained Optimization Problem)
对于无约束优化问题一样,我们有判断局部最优解的充分条件和必要条件。通过引进拉格朗日乘子,对于约束优化问题,我们也可以推导出类似的充分条件和必要条件。
局部搜索方法——线性搜索
局部搜索方法是解决无约束优化的一种方法,一般只能得到局部最优解。
共轭梯度法(Conjugate Gradient Method)
共轭梯度法是求解大型线性方程组的一种很有效的方法,也可以通过改进用来求解非线性优化问题。下面先介绍线性线性共轭梯度法,再介绍非线性共轭梯度法。
梯度提升(Gradient Boosting)
什么是梯度提升(Gradient Boosting)
可以认为 Gradient Boosting = Gradient Descent + Boosting
在AdaBoost中,我们通过每一步添加一个弱分类器来最终得到一个由若干弱分类器线性组合成的强分类器。每一步训练弱分类器时都更关注之前误分类的样本。将误分类样本看成总模型的缺陷,则算法每一步都是通过添加一个弱分类器来试图减小总模型的缺陷。
和 AdaBoost 一样,Gradient Boosting 也是一个步进算法,每一步添加一个弱分类器。不同的是,在 Gradient Boosting中,用来刻画缺陷的是梯度,通过梯度下降,来逐渐提高总模型的预测能力。
LARS与Lasso和Forward Stagewise
在之前的文章中,我们说过,系数 $\boldsymbol{\beta}$ 在LARS、Lasso和前向阶进算法(Forward Stagewise)中的相似变化并不是巧合,LARS可以通过小的改动来实现Lasso和阶进算法。
最小角回归(Least Angle Regression)
最小角回归(Least Angle Regression,下面简称为LARS)是一种模型选择算法。和传统的模型选择方法相比,它是一个相对不那么”贪心”的版本,同时表现出很好的性能。通过对LARS的一点小改动,它可以用来实现LASSO和前向阶进回归(Forward Stagewise linear regression)。LARS的一大优点是计算开销小。
集成学习算法(Ensemble Learning)
一般线性模型(General Linear Model)
在线性回归中,我们有 $y|x;\theta\sim\mathcal{N}(\mu,\sigma^2)$;在逻辑回归中,我们有 $y|x;\theta\sim\text{Bernoulli}(\phi)$。其中,$\mu$ 和 $\phi$ 可以很好地定义为关于 $x$ 和 $\theta$ 的函数。下面,我们将说明线性回归、逻辑回归都是一般线性模型(General Linear Model)的特例。