机器学习机器第二讲：learn to answer yes/no

刚刚完成了机器学习基石的第二讲，主要介绍了机器学习的定义，PLA算法和pocket PLA算法。下面将笔记整理在下面。

Perceptron Hypothesis Set

延续前面的信用卡发放问题。银行已有的用户数据可能包括用户的年龄、年薪、工作时长、债务情况等特征信息，我们分别用$x_1$，$x_2$，...，$x_d$来表示，那么对于每一个用户都有一个向量来表示其信息。我们为每一个特征信息分配一个权值$w_i$，用来衡量该特征信息在此问题中的权重（例如，年薪对应的权值应该是一个正值，年薪越高越应该可以发放信用卡；债务对应的权值应该为一个负值，负债越多越不应该发放信用卡）。对于每一个用户，我们计算他的加权分值，若该加权分值超过某一个给定的阈值（threshold），那银行就给他信用卡；若未超过，则银行不予发放。现在，我们知道了问题的输入为一个个的d维向量，输出为y:{+1(good), -1(bad)}，要求的hypothesis是一个线性函数，如下所示：

$$h(x)=sign((\sum_{i=1}^{d}w_ix_i) - threshold)$$

对于这样的hypothesis，我们称之为感知机（perceptron）。

2_1

我们将上式向量化，并将阈值加到前面的求和中，就变成了下面这样：

2_2

此时，x和权值向量w均为d+1维。下面给出一个二维平面上的perceptron hypothesis的例子，我们的perceptron要做的就是将图中的圈圈和叉叉给分开。

2_3

我们看到perceptron在二维平面上就是一条直线，其在更高维的空间呢应该以个超平面，所以我们说感知机是一个线性分类器。

下面是关于垃圾邮件分类的一个小测试：

2_4

perceptron Learning Algorithm(PLA)

现在我们知道了hypothesis是什么样的，那么我们怎样从H = all possible perceptrons中选择一条最好的呢？怎么去判断hypothesis的好坏呢，我们的思路是用这个hypothesis去处理已有的数据集，该hypothesis对已有数据的处理结果越正确则越好。就是说，如果又一个hypothesis对银行用户信息的处理结果与银行之前作出的信用卡发放决定都一致的话，那这个hypothesis就是好的。

hypothesis有无穷多个，那我们怎么去遍历呢？我们的思路是从某一条hypothesis出发，不断的去修正它，使其一次比一次变得好。修正的方法是这样的：对于一个hypothesis，对应其由一个$w_t$，我们去找一个数据点$(x_{n(t)},y_{n(t)})$，有
$$sign(w_t^Tx_{n(t)}) \neq y_{n(t)}$$
也就是说该hypothesis在数据点$(x_{n(t)},y_{n(t)})$处出现了错误，此时我们要对hypothesis做如下修正（至于为什么要做这样的修正，请看下图右侧的向量加减法的三角形表示）：
$$w_{t+1} \xleftarrow{} w_t + y_{n(t)}x_{n(t)}$$
持续进行这样的修正，直至hypothesis在所有的数据点上均不出现错误（或者在尽可能少的点上有错误），知识我们就得到了一个比较好的hypotesis。

2_5

我们将这个算法称为PLA。下图是PLA算法的一个伪算法（当然还有对数据点的其他遍历方法）：

2_6

然后视频中作了一个修正hypothesis的演示，这里省略。

前面我们说当hypothesis在任何数据点上都不犯错误的时候，算法就会停下来，那算法一定会停下来吗？就算算法会停下来，那我们最终得到的g肯定会很接近目标函数f吗？这是本小节遗留的两个问题，以后会介绍。

最后是小测试（对修正公式等号两边均左乘$y_n$，再右乘$x_n$就可以得出结果）：

2_7

Guarantee of PLA

对于一个数据集中的两类数据点（一组是圈圈，一组是叉叉），当存在一条直线（或超平面）能够将圈圈和叉叉完全分开时，我们称这样的数据集时线性可分的（linear separable）。下图中给出了线性可分数据集和非线性可分的数据集。

2_8

对于线性可分的数据集D，存在一个完美的$w_f$对于任意地数据点$(x_n,y_n)$均满足$y_n=sign(w_f^Tx_n)$。我们假设$w_f$就是目标f对应的参数，那我们来看一下每一次修正后的参数$w_{t+1}$是不是比修正前的参数$w_t$更接近$w_f$呢？

2_9

通过上图中的推导，我们得到了$w_f^Tw_{t+1} > w_f^Tw_t$，这说明了什么呢？由向量内积的定义（向量a和向量b的内积为$a^Tb = \left|a\right|\cdot\left|b\right|\cdot cos\alpha$，其中$\alpha$是a和b的夹角），我们知道$w_{t+1}$与$w_f$的夹角$\alpha_{t+1}$比$w_{t}$与$w_f$的夹角$\alpha_{t}$要小（这里我们取$w_{t+1}$和$w_t$都是单位向量，下面再来说向量长度的问题），所以说$w_{t+1}$比$w_t$更接近$w_f$。这也就说明了我们对参数$w_t$的修正是有效的，我们的hypothesis会越来越接近目标f。

我们说hypothesis只有在犯错的时候才更新，才有
$$w_{t+1} = w_t + y_{n(t)}x_{n(t)}$$
我们作如下的一个推导：

2_10