统计学习方法L1

第一章的主要内容

叙述统计学习的定义、研究对象和方法

叙述监督学习（本书的主要内容）

提出统计学习方法的三要素：模型、策略和算法

介绍模型选择，包括正则化、交叉验证与学习的泛化能力

介绍生成模型与判别模型

介绍监督学习方法的应用：分类问题、标注问题与回归问题

1.1 统计学习

统计学习的特点

定义：统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运 用模型对数据进行预测与分析的一门学科．统计学习也称为统计机器学习 (statistical machine learning）
主要特点：
- 统计学习以计算机及网络为平台，是建立在计算机及网络之上的
- 统计学习以数据为研究对象，是数据驱动的学科
- 统计学习的目的是对数据进行预测与分析
- 统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并且在发展中逐步形成独自的理论体系与方法论．

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习.

现在，当人们提及机器学习时，往往是指统计机器学习．

统计学习的对象

很明显是数据，从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去
数据是多样的，包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合．
统计学习的前提：同类数据具有一定的统计规律性，这里的同类数据是指具有某种共同性质的数据
- 由于具有统计规律性，所以可以用概率统计方法来加以处理。
- 比如，可以用随机变量描述数据中的特征，用概率分布描述数据的统计规律。

统计学习的目的

目的：用于对数据进行预测与分析，特别是对未知的新数据进行预测与分析
对数据的预测与分析是通过构建概率统计模型实现的
总的目标：考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率

统计学习的方法

基于数据构建统计模型从而对数据进行预测与分析。
组成
- 监督学习（supervised learning）
- 非监督学习（unsupervised learning）
- 半监督学习（semi-supervised learning）
- 强化学习（reinforcement learning）
主要讨论监督学习，这种情况下的统计学习的方法概括如下：
- 从给定的、有限的、用于学习的训练数据（training data）集合出发，假设数据是独立同分布产生的
- 并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）
- 应用某个评价准则（evaluation criterion），从假设空间中选取一个最优的模型，使它对已知训练数据及未知测试数据（test data）在给定的评价准则下有最优的预测
- 最优模型的选取由算法实现
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法
这个过程概括为三要素
- 模型（model）
- 策略（strategy）
- 算法（algorithm）
实现统计学习方法的步骤如下：

（1）得到一个有限的训练数据集合；

（2）确定包含所有可能的模型的假设空间，即学习模型的集合；

（3）确定模型选择的准则，即学习的策略；

（4）实现求解最优模型的算法，即学习的算法；

（5）通过学习方法选择最优模型；

（6）利用学习的最优模型对新数据进行预测或分析

统计学习的研究

包括三个方面
- 统计学习方法（statistical learning method）
  - 旨在开发新的学习方法
- 统计学习理论（statistical learning theory）
  - 研究在于探求统计学习方法的有效性与效率，以及统计学习的基本理论问题
- 统计学习应用（application of statistical learning）
  - 主要考虑将统计学习方法应用到时机问题中取，解决实际问题

1.2 监督学习

监督学习的任务：学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测

基本概念

输入空间、特征空间与输出空间

将输入与输出所有可能取值的集合分别称为输入空间（input space）与输出空间（output space）
- 输入与输出空间可以是有限元素的集合，也可以是整个欧氏空间
- 输入空间与输出空间可以是同一个空间，也可以是不同的空间；
- 但通常输出空间远远小于输入空间．
每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示
所有特征向量存在的空间称为特征空间（feature space），特征空间的每一维对应于一个特征
- 有时假设输入空间与特征空间为相同的空间，对它们不予区分
- 有时假设输入空间与特征空间为不同的空间，将实例从输入空间映射到特征空间
- 模型实际上都是定义在特征空间上的
在监督学习过程中，将输入与输出看做是定义在输入（特征）空间与输出空间上的随机变量的取值
- 监督学习从训练数据（training data）集合中学习模型，对测试数据（test data）进行预测
- 训练数据由输入（或特征向量）与输出对组成，通常表示为
\[ T = \{(x_1, y_1), (x_2, y_2), \dots , (x_N, y_N)\} \]
- 测试数据由相应的输入与输出对组成。
- 输入与输出对又称为样本（sample）或样本点
输入变量X和输出变量Y有不同的类型，可以是连续的，也可以是离散的
- 输入变量与输出变量均为连续变量的预测问题称为回归问题
- 输出变量为有限个离散变量的预测问题称为分类问题
- 输入变量与输出变量序列的预测问题称为标注问题

联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X, Y)
- \(P(X, \ Y)\)表示分布函数，或者分布密度函数
注意：在学习过程中，假定这一联合概率分布存在，训练数据与测试数据被看作是依联合概率分布\(P(X, \ Y)\)独立同分布产生的。
统计学习假设数据存在一定的统计规律，X 和Y 具有联合概率分布的假设就是监督学习关于数据的基本假设．

假设空间

监督学习目的在于学习一个由输入到输出的映射，这一映射由模型来表示
模型属于由输入空间到输出空间的映射的集合，该集合就是假设空间（hypothesis space）
- 假设空间的确定意味着学习范围的确定
监督学习的模型可以是概率模型或非概率模型，由条件概率分布\(P(Y|X)\)或决策函数（decision function）\(Y = f(X)\)表示，随具体学习方法而定。
- 对具体的输入进行相应的输出预测时，写作\(P(y|x)\)或\(y = f(x)\)

问题的形式化

监督学习利用训练数据集学习一个模型，再用模型对测试样本集进行预测（prediction）
这个过程中需要训练数据集，而训练数据集往往是人工给出的，称为监督学习
- 监督学习分为学习和预测两个阶段，由学习系统与预测系统完成

如果这个模型有很好的预测能力，训练样本输出\(y_i\)和模型输出\(f(x_i)\)之间的差就应该足够小．学习系统通过不断的尝试，选取最好的模型，以便对训练数据集有足够好的预测，同时对未知的测试数据集的预测也有尽可能好的推广．

1.3 统计学习三要素

方法 = 模型 + 策略 + 算法

模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数
模型的假设空间（hypothesis space）包含所有可能的条件概率分布或决策函数
- 例如，假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合

假设空间用\(F\)表示，假设空间可以定义为决策函数的集合

\[ F = \{f \ | \ Y \ = \ f(X) \} \]

其中，\(X\)和\(Y\)是定义在输入空间和输出空间上的变量

这时\(F\)通常是由一个参数向量决定的函数族

\[ F = \{f \ | \ Y \ = \ f_{\theta}(X), \ \theta \ \in \ R^n \} \]

参数向量\(\theta\)取值于\(n\)维欧式空间\(R^n\)，称为参数空间（parameter space）

假设空间也可以定义为条件概率的集合 \[ F = \{ P \ | \ P(Y | X) \} \]

其中，\(X\)和\(Y\)是定义在输入空间和输出空间上的随机变量

这时\(F\)通常是由一个参数向量决定的条件概率分布族

\[ F = \{P \ | \ P_{\theta}(Y |X), \theta \in R^n \} \]

参数向量\(\theta\)取值于\(n\)维欧式空间\(R^n\)，称为参数空间（parameter space）

本书称由决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型

策略

有了模型的假设空间，统计学习接着要考虑的是按照什么样的准则学习或选择最优的模型

统计学习的目标在于从假设空间中选取最优模型

损失函数和风险函数

损失函数度量模型一次预测的好坏
风险函数度量平均意义下模型预测的好坏

损失函数是\(f(X)\)和\(Y\)的非负实值函数，记作\(L(Y, \ f(X))\)

常用的损失函数
- 0-1损失函数（0-1 loss function）
\[ \begin{align*} \begin{split} L(Y, f(X))= \left \{ \begin{array}{ll} 1, & Y \ne \ f(X) \\ 0, & Y = f(X) \\ \end{array} \right. \end{split} \end{align*} \]
- 平方损失函数（quadratic loss function）
\[ L(Y, f(X)) = (Y\ - \ f(X))^2 \]
- 绝对损失函数（absolute loss function）
\[ L(Y, f(X)) = |Y \ - \ f(X)| \]
- 对数损失函数（logarithmic loss function）或对数似然损失函数（loglikelihood loss function）
\[ L(Y, P(Y|X)) = -logP(Y|X) \]
损失函数值越小，模型就越好
由于模型的输入、输出\(（X,Y）\)是随机变量，遵循联合分布\(P(X, Y)\)，所以损失函数的期望是

\[ R_{exp}(f) = E_p[L(Y, f(X))] = \int_{X \times Y}L(y, f(x))P(x, y)dxdy \]

这是理论上模型\(f(X)\)关于联合分布\(P(X,Y)\)的平均意义下的损失，成为风险函数（risk function）或期望损失（expected loss）

学习的目标就是选择期望风险最小的模型
- 由于联合分布\(P(X,Y)\)是未知的，\(R_{exp}(f)\)不能直接计算
- 这样一来，一方面根据期望风险最小学习模型要用到联合分布，另一方面联合分布又是未知的，所以监督学习就成为一个病态问题（ill-formed problem）
给定一个训练数据集

\[ T = \{(x_1, y_1), (x_2, y_2), \dots , (x_N, y_N)\} \]

模型\(f(X)\)关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失(empirical loss)，记作\(R_{emp}\) \[ R_{emp}(f) = \frac{1}{N} \sum_{i=1} ^NL(y_i,f(x_i)) \]

期望风险和经验风险的区别

期望风险\(R_{exp}(f)\)是模型关于联合分布的期望损失

经验风险\(R_{emp}(f)\)是模型关于训练样本集的平均损失

根据大数定律，当样本容量\(N\)趋于无穷时，经验风险\(R_{emp}(f)\)趋于期望风险\(R_{exp}(f)\)，所以很自然地想到用经验风险估计期望风险。
但是现实中训练样本数目有限，甚至很小，所以这么做往往并不理想
要对经验风险进行一定的矫正，这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化

经验风险最小化与结构风险最小化

在假设空间、损失函数以及训练数据集确定的情况下，经验风险函数式就可以确定

经验风险最小化（empirical risk minimization，ERM）

该策略认为，经验风险最小的模型就是最优的模型
根据该策略，按照经验风险最小化来求最优模型就是求解最优化问题

\[ \min_{f \in F} \frac{1}{N}\sum^N_{i=1}L(y_i, f(x_i)) \]

其中，\(F\)是假设空间

当样本容量足够大时，经验风险最小化能保证有很好的学习效果，在现实中被广泛采用
- 如，极大似然估计（maximum likelihood estimation）就是经验风险最小化的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计
- 但是，当样本容量很小，经验风险最小化学习的效果未必很好，会产生“过拟合”现象

结构风险最小化（structural risk minimization，SRM）

为了防止过拟合而提出来的策略
结构风险最小化等价于正则化（rugularization）
结构风险在经验风险上加上表示模型复杂度的正则化项（regularizer）或罚项（penalty term）

\[ R_{srm}(f) = \frac{1}{N} \sum^N_{i=1}L(y_i,f(x_i)) + \lambda J(f) \]

其中\(J(f)\)为模型的复杂度，是定义在假设空间\(F\)上的泛函

模型\(f\)越复杂，复杂度\(J(f)\)就越大，反之则相反
- 也就是说，复杂度表示了对复杂模型的惩罚
\(\lambda \ge 0\)是系数，用来权衡经验风险和模型复杂度
结构风险小需要经验风险与模型复杂度同时小
- 比如，贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation, MAP）就是一个结构风险最小化的一个例子。
- 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计．
结构风险最小化的策略认为结构风险最小的模型是最优的模型，求最优模型就是求解最优化问题

\[ \min_{f \in F} \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f) \]

监督学习问题就变成了经验风险或结构风险函数的最优化问题．这时经验或结构风险函数是最优化的目标函数

算法

算法是指学习模型的具体计算方法

统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型
统计学习方法就归结为最优化问题，统计学习的算法成为求解最优化问题的算法
- 如果最优化问题有显式的解析解，最优化问题就很简单，但通常解析解不存在
- 这就需要数值计算的方法求解，如何保证找到全局最优解，并使求解的过程非常高效，成为一个重要问题
统计学习可利用已有的最优化算法，有时也需要开发独立的最优化算法

统计学习方法之间的不同，主要来自其模型、策略、算法的不同．确定了模型、策略、算法，统计学习的方法也就确定了．这也就是将其称为统计学习三要素的原因．

1.4 模型评估与模型选择

训练误差与测试误差

当损失函数给定时，基于损失函数的模型的训练误差（training error）和模型的测试误差（test error）就自然成为学习方法评估的标准．

注意，统计学习方法具体采用的损失函数未必是评估时使用的损失函数．

当然，让两者一致是比较理想的

假设学习到的模型是\(Y = \hat{f}(X)\)，训练误差是模型关于训练数据集的平均损失

\[ R_{emp}(\hat{f}) = \frac{1}{N}\sum^N_{i=1}L(y_i, \hat{f}(x_i)) \]

其中，\(N\)是训练样本容量

测试误差是模型关于测试数据集的平均损失

\[ e_{test} = \frac{1}{N} \sum^{N^{`}}_{i=1}L(y_i, \hat{f}(x_i)) \]

其中，\(N^`\)是测试样本容量

当损失函数是0-1损失时，测试误差就变成了常见的测试数据集上的误差率(error rate)了
训练误差的大小，对判断给定问题是不是一个容易学习的问题是有意义的，但本质上不重要
测试误差反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念
- 通常将学习方法对未知数据的预测能力称为泛化能力（generalization ability）

过拟合与模型选择

当假设空间含有不同复杂度（例如，不同的参数个数）的模型时，就要面临模型选择（model selection）的问题
如果在假设空间中存在“真”模型，那么所选择的模型应该逼近真模型
- 具体地，所选择的模型要与真模型的参数个数相同，参数向量与真模型的参数向量相近
但是，如果
一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高，这种现象成为过拟合（over-fitting）
- 过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象．
模型选择旨在避免过拟合并提高模型的预测能力

1.5 正则化与交叉验证

正则化（regularization）

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项（regularizer）或罚项（penalty term）
正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大
- 比如，正则化项可以是模型参数向量的范数
正则化一般具有如下形式

\[ \min_{f \in F} \frac{1}{N}\sum_{i=1}^N L(y_i, f(x_i)) +\lambda J(f) \]

其中，第1项是经验风险，第2项是正则化项，\(\lambda \ge 0\)为调整两者之间关系的系数

正则化项可以取不同的形式
例如，回归问题，损失函数为平方损失，正则化项可以是参数向量的\(L^2\)范数

\[ L(w) = \frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2 + \frac{\lambda}{2} ||w||^2 \]

也可以是参数向量的\(L_1\)范数 \[ L(w) = \frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2 + \lambda ||w||_1 \]

正则化符合奥卡姆剃刀(Occam’s razor)原理．奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型
从贝叶斯估计的角度来看，正则化项对应于模型的先验概率．可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率．

交叉验证（cross validation）

给定的样本数据充足，可随机地将数据集切分成三部分，分别为训练集（training set）、验证集（validation set）和测试集（test set）
- 训练集（training set）：用来训练模型
- 验证集（validation set）：用于模型的选择
- 测试集（test set）：用于最终对学习方法的评估
在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型
由于验证集有足够多的数据，用它对模型进行选择也是有效的

简单交叉验证

随机地将已给数据分成两部分
- 一部分作为训练集
- 另一部分作为测试集
- （例如，70%的数据为训练集，30%的数据为测试集）
用训练集在各种条件下（例如，不同的参数个数）训练模型
在测试集上评价各个模型的测试误差，选出测试误差最小的模型

S折交叉验证（S-fold cross validation）

首先随机地将已给数据切分为\(S\)个互不相交的大小相同的子集
然后利用\(S-1\)个子集的数据训练模型，利用余下的子集测试模型
将这一过程对可能的\(S\)种选择重复进行
最后选出\(S\)次评测中平均测试误差最小的模型

留一交叉验证

\(S\)折交叉验证的特殊情形是\(S = N\)，称为留一交叉验证（leave-one-out cross validation）
往往在数据缺乏的情况下使用

1.6 泛化能力

泛化误差

学习方法的泛化能力（generalization ability）是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质

现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力
- 这种评价依赖于测试数据集，而测试数据集是有限的，很有可能由此得到的评价结果是不可靠的
- 统计学习理论试图从理论上对学习方法的泛化能力进行分析
定义：如果学到的模型是\(\hat{f}\)，那么用这个模型对未知数据预测的误差即为泛化误差（generalization error）

\[ R_{exp}(\hat{f}) = E_p[L(Y,\hat{f}(X))] = \int_{X \times Y}L(y,\hat{f}(x))P(x,y)dxdy \]

泛化误差反映了学习方法的泛化能力，如果一种方法学习到的模型比另一种方法学习的模型具有更小的泛化误差，则该方法更有效
- 事实上，泛化误差就是所学习到的模型的期望风险

泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界（generalization error bound）

具体来说，就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣
有以下性质
- 是样本容量的函数，当样本容量增加时，泛化上界趋于0
- 是假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大

1.7 生成模型与判别模型

监督学习方法可以分为生成方法（generative approach）和判别方法（discriminative approach），所学到的模型分别成为生成模型（generative model）和判别模型（discriminative model）

生成模型

生成方法由数据学习联合概率分布\(P(X,Y)\)，然后求出条件概率分布\(P(Y|X)\)作为预测的模型，即生成模型

\[ P(Y|X) = \frac{P(X, Y)}{P(X)} \]

之所以被称为生成方法，是因为模型表示了给定输入\(X\)产生输出\(Y\)的生成关系

典型的生成模型：朴素贝叶斯法和隐马尔科夫模型

判别模型

判别方法由数据直接学习决策函数\(f(X)\)或者条件概率分布\(P(Y|X)\)作为预测的模型，即判别模型
判别方法关心的是对给定的输入\(X\)，应该预测什么样的输出\(Y\)
典型的判别模型：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场

比较

生成方法和判别方法各有优缺点，适用于不同条件下的学习方法
生成方法的特点：
- 生成方法可以还原出联合概率分布\(P(X,Y)\)，而判别方法不能
- 生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型
- 存在隐变量时，仍可以用生成方法学习
判别方法的特点：
- 判别方法直接学习的是条件概率\(P(Y|X)\)或决策函数\(f(X)\)，直接进行预测，往往学习的准确率更高
- 由于直接学习\(P(Y|X)\)或\(f(X)\)，可以对数据进行各种程度上的抽象、定义特征并使用特征，可以简化学习问题

1.8 分类问题

分类是监督学习的一个核心问题

当输出变量\(Y\)取有限个离散值时，预测问题便成为分类问题
输入变量\(X\)可以是离散的，也可以是连续的
监督学习从数据中学习一个分类模型或分类决策函数，称为分类器（classifier）
分类器对新的输入进行输出的预测（prediction），称为分类（classfication）
- 可能的输出称为类（class）
- 分类的类别为多个时，称为多类分类问题
分类问题包括学习和分类两个过程
- 学习过程中，根据已知的训练数据集利用有效的学习方法学习一个分类器
- 分类过程中，利用学习的分类器对新的输入实例进行分类

评价分类器性能的指标一般是 分类准确率（accuracy）
- 定义：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比
对于二类分类问题常用的评价指标是精确率（precision）与召回率（recall）
- 通常以关注的类为正类，其他类为负类，分布器在测试数据集上的预测或正确或不正确
- 4种情况：
  - TP：将正类预测为正类数
  - FN：将正类预测为负类数
  - FP：将负类预测为正类数
  - TN：将负类预测为负类数
- 精确率： \[ P = \frac{TP}{TP+FP} \]
- 召回率：

\[ R = \frac{TP}{TP+FN} \]

\(F_1\)值：是精确率和召回率的调和均值

\[ \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R} \]

精确率和召回率都高时，\(F_1\)值也会高

1.9 标注问题

标注（tagging）是一个监督学习问题，可认为是分类问题的一个推广，它又是更复杂的结构预测（structure prediction）问题的简单形式

标注问题的输入是一个观测序列，输出是一个标记序列或状态序列
目标：学习一个模型，使它能够对观测序列给出标记序列作为预测
- 可能的标记个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数级增长的
标注问题分为学习和标注两个过程、

给定训练数据集：\(T = \{(x_1, y_1),(x_2,y_2),\dots,(x_N, y_N)\}\)

这里，\(x_i = (x_{i}^{(1)}, \dots, x_i^{(n)})\)，\(i=1,2,\dots,N\)，是输入观测序列，

\(y_i = (y_i^{(1)},\dots,y_i^{(n)})\)是相应的输出标记序列，n是序列的长度，对不同样本可以有不同的值

学习系统基于训练数据集构建一个模型，表示为条件概率分布

\[ P(Y^{(1)},Y^{(2)},\dots,Y^{(n)}|X^{(1)}, X^2,\dots,X^{(n)}) \]

这里每一个\(X^{(i)}，i=1,2,\dots,n\)的取值为所有可能的观测，每一个\(Y^{(i)}\)取值为所有可能的标记，一般\(n \ll N\)

标注系统按照学习得到的条件概率分布模型，对新的输入观测序列找到相应的输出标记序列
- 具体地，对一个观测序列\(x_{N+1}\)找到使条件概率\(P\)最大的标记序列\(y_{N+1}\)
评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率、精确率和召回率，其定义与分类模型相同
标注常用的统计学习方法有：隐马尔科夫模型、条件随机场
标注问题在信息抽取、自然语言处理等领域被广泛应用，是这些领域的基本问题

1.10 回归问题

回归（regression）是监督学习的另一个重要问题。

回归用于预测输入变量（自变量）和输出变量（因变量）之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化。

回归模型正是表示从输入变量到输出变量之间映射的函数
- 回归问题的学习等价于函数拟合：选择一条函数曲线使其更好地拟合已知数据且很好地预测未知数据
回归问题分为学习和预测两个过程
- 首先给定一个训练数据集
- 学习系统基于训练数据构建一个模型，即函数\(Y=f(X)\)
- 对新的输入\(x_{N+1}\)，预测系统根据学习的模型\(Y = f(X)\)确定相应的输出\(y_{N+1}\)
回归问题按照输入变量的个数，分为一元回归和多元回归
按照输入变量和输出变量之间关系的类型即模型的类型，分为线性回归和非线性回归
回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由最小二乘法（least squares）求解

本章概要

习题

	模型	策略	算法
极大似然估计	条件概率	经验风险最小化	求解析解
贝叶斯估计	条件概率	结构风险最小化	求数值解

伯努利模型

\[ P(Y=1) = \theta \\ P(Y=0) = 1 - \theta \]

极大似然估计

似然函数的对数 \[ \begin{align*} log(L(\theta)) =& \ log(\prod P(Y_i)) \\ =& \ log(\theta^k * (1-\theta)^{N-k}) \\ =& \ k*log\theta + (N-k)*log(1-\theta) \end{align*} \]

其中\(N\)为实验次数，\(k\)为出现1的次数

令对数似然的导数为0可以直接求出解析解： \[ \theta = \frac{k}{N} \]

贝叶斯估计

\[ P(\theta \ | \ Y_1, Y_2, \dots, Y_n) = \frac{P(Y_1,Y_2,\dots,Y_n|\theta) * P(\theta)}{P(Y_1,Y_2,\dots,Y_n)} \]

根据先验概率\(P(\theta)\)和\(P(Y_1, Y_2, \dots,Y_n)\)估计后验概率，使后验概率最大化

所以贝叶斯估计得到的概率取决于所选择的先验概率

条件概率分布

\[ f(X) = P(Y|X) = \frac{P(X,Y)}{P(X)} \]

对数损失的定义

\[ L(Y, P(Y|X)) = -logP(Y|X) \]

经验风险R为

\[ \begin{align*} R =& \ \frac{1}{N} * \sum^N_{i=1}L(Y_i, f(X_i)) \\ =& \ \frac{1}{N} * \sum^N_{i=1}L(Y_i, P(Y_i|X_i)) \\ =& \ \frac{1}{N} * \sum^N_{i=1}(-log(P(Y_i | X_i))) \\ =& \ -\frac{1}{N} * log(\prod^N_{i=1}\frac{P(X_i,Y_i)}{P(X_i)}) \end{align*} \]

所以最小化经验风险R，相当于最大化似然估计\(log(\prod^N_{i=1}\frac{P(X_i,Y_i)}{P(X_i)})\)