在线性回归中,我们需要去确定使用的特征,特征的选择对结果影响很大。如果特征很多,则容易过拟合;特征太少又容易欠拟合。我们不可能对每个特征组合都去试一次,下面介绍的局部加权线性回归(LWR)方法可以减少特征选择对结果影响,同时很好地拟合数据。
LWR 的主要思想是:我们要用多项式去局部地拟合待预测点附近的数据,而对离预测点远的数据不关心。
在最初的线性回归算法中,对于预测点$x’$,我们通常要做的是
- 找到能最小化$\sum_i(y^{(i)}-\theta^Tx^{(i)})^2$的$\theta$
- 输出$\theta^Tx’$
而在LWR中,对于预测点$x’$,我们要做的是
- 找到能最小化$\sum_iw^{(i)}(y^{(i)}-\theta^Tx^{(i)})^2$的$\theta$
- 输出$\theta^Tx’$
其中,$w^{(i)}$是一个非负的权重。如果,$w^{(i)}$很大,那么在选择$\theta$时,我们就要努力使$(y^{(i)}-\theta^Tx^{(i)})^2$变小;而如果$w^{(i)}$很小,那么此时,误差项$(y^{(i)}-\theta^Tx^{(i)})^2$对$\theta$的影响就没有那么大。
$w^{(i)}$的一个比较标准的选择是:
$$w^{(i)}=\exp\left(-\cfrac{(x^{(i)}-x’)^2}{2\tau^2}\right)$$
注意到,这个权值的大小是与待预测的点$x’$的位置有关。当数据点离$x’$近的时候,$w^{(i)}$就比较大;当数据点离$x’$远的时候,$w^{(i)}$就比较小。所以,在选择$\theta$的时候就会给离$x’$更近的训练数据更大的权重。参数$\tau$控制了权重随距$x’$距离下降的速度,称为带宽参数。
与一般线性回归不同,LWR是一种非参数(non-parametric)算法。对于参数学习算法(线性回归),当我们用训练集学习到模型的参数后,我们就不需要训练集数据了,之后只需要用这些参数和模型进行预测。而对于LWR,我们在每一次预测时,都需要重新进行学习训练,所以需要一直保留训练集数据。