6 逻辑回归(Logistic Regression)6.1 分类(Classification)6.2 假设函数表示(Hypothesis Representation)6.3 决策边界(Decision Boundary)6.4 代价函数(Cost Function)6.5 简化的成本函数和梯度下降(Simplified Cost Function and Gradient Descent)6.6 进阶优化(Advanced Optimization)6.7 多类别分类: 一对多(Multiclass Classification: One-vs-all)7 正则化(Regularization)7.1 过拟合问题(The Problem of Overfitting)7.2 代价函数(Cost Function)7.3 线性回归正则化(Regularized Linear Regression)7.4 逻辑回归正则化(Regularized Logistic Regression)

6 逻辑回归(Logistic Regression)

6.1 分类(Classification)

在分类问题中，预测的结果是离散值（结果是否属于某一类），逻辑回归算法(Logistic Regression)被用于解决这类分类问题。

垃圾邮件判断
金融欺诈判断
肿瘤诊断

讨论肿瘤诊断问题：

肿瘤诊断问题的目的是告诉病人是否二元分类问题(binary class problems) $y \in\lbrace 0, 1\rbrace$ ，其中 0 表示负向类(negative class)，代表恶性肿瘤("-")，1 为正向类(positive class)，代表良性肿瘤("+")。如图，定义最右边的样本为偏差项。

在未加入偏差项时，线性回归算法给出了品红色的拟合直线，若规定

$h_\theta(x) \geqslant 0.5$ $y = 1$ ，即正向类；

$h_\theta(x) \lt 0.5$ $y = 0$ ，即负向类。

阈值 $y$ 。

接下来加入偏差项，线性回归算法给出了靛青色的拟合直线，如果阈值仍然为 0.5，可以看到算法在某些情况下会给出完全错误的结果，对于癌症、肿瘤诊断这类要求预测极其精确的问题，这种情况是无法容忍的。

$h_\theta(x) \in R$ $h_\theta(x) = 10000, h_\theta(x) = -10000$ $y \in \lbrace 0, 1\rbrace$ ，这显得非常怪异。

其输出值永远在 0 到 1 之间 $h_\theta(x) \in (0,1)$ 。

6.2 假设函数表示(Hypothesis Representation)

$h_\theta(x) \in \left(0, 1\right)$ ，引入逻辑回归模型，定义假设函数

h_\theta \left( x \right)=g(z)=g\left(\theta^{T}x \right)

$h_\theta \left( x \right)=\theta^{T}x$ $g$ 表示逻辑函数(logistic function)，复合起来，则称为逻辑回归函数。

$(0, 1)$ 范围。

sigmoid 函数 $g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。

sigmoid function

$h_{\theta}(x)=g(\theta^Tx) =\frac{1}{1+e^{-\theta^Tx}}$

$h_\theta \left( x \right)$ $x$ $\theta$ $y=1$ “的可能性(estimated probability)，概率学中表示为：

\begin{align*} & h_\theta(x) = P(y=1 | x ; \theta) = 1 - P(y=0 | x ; \theta) \\ & P(y = 0 | x;\theta) + P(y = 1 | x ; \theta) = 1 \end{align*}

$h_\theta \left( x \right)=0.7$ $70\%$ 的概率得了恶性肿瘤。

6.3 决策边界(Decision Boundary)

决策边界的概念，可帮助我们更好地理解逻辑回归模型的拟合原理。

$h_\theta \left( x \right)=g(z)=g\left(\theta^{T}x \right)$ 。

$0.5$ 为阈值：

\begin{align*} & h_\theta(x) \geq 0.5 \rightarrow y = 1 \\ & h_\theta(x) < 0.5 \rightarrow y = 0 \\ \end{align*}

回忆一下 sigmoid 函数的图像：

sigmoid function

$g(z) \geq 0.5$ $z \geq 0$ $\theta^Tx \geq 0$ 。

同线性回归模型的不同点在于：

\begin{align*} z \to +\infty, e^{-\infty} \to 0 \Rightarrow g(z)=1 \\ z \to -\infty, e^{\infty}\to \infty \Rightarrow g(z)=0 \end{align*}

${h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}\right)$ 是下图模型的假设函数：

${\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}\geq0$ $y = 1$ ，即预测为正向类。

$\theta = \begin{bmatrix} -3\\1\\1\end{bmatrix}$ $z = -3+{x_1}+{x_2}$ $z \geq 0$ ${x_1}+{x_2} \geq 3$ 决策边界 $y=1$ 的分类预测结果。

上面讨论了逻辑回归模型中线性拟合的例子，下面则是一个多项式拟合的例子，和线性回归中的情况也是类似的。

为了拟合下图数据，建模多项式假设函数：

{h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_{1}^{2}+{\theta_{4}}x_{2}^{2} \right)

$\theta = \begin{bmatrix} -1\\0\\0\\1\\1\end{bmatrix}$ ${x_1}^2+{x_2}^2 = 1$ ），如此便可给出分类结果，如图中品红色曲线：

当然，通过一些更为复杂的多项式，还能拟合那些图像显得非常怪异的数据，使得决策边界形似碗状、爱心状等等。

分类的分界线 $z$ $\theta$ )决定啦。

6.4 代价函数(Cost Function)

$\theta$ $J(\theta)$ 。

$J\left( {\theta} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$

$h_\theta(x) = g\left(\theta^{T}x \right)$ $J(\theta)$ 的图像，如下图

回忆线性回归中的平方损失函数，其是一个二次凸函数（碗状），二次凸函数的重要性质是只有一个局部最小点即全局最小点。上图中有许多局部最小点，这样将使得梯度下降算法无法确定收敛点是全局最优。

如果此处的损失函数也是一个凸函数，是否也有同样的性质，从而最优化？这类讨论凸函数最优值的问题，被称为凸优化问题(Convex optimization)。

当然，损失函数不止平方损失函数一种。

对数损失函数 $J(\theta)$ ：

\begin{align*} & J(\theta) = \dfrac{1}{m} \sum_{i=1}^m \mathrm{Cost}(h_\theta(x^{(i)}),y^{(i)}) \\ & \mathrm{Cost}(h_\theta(x),y) = -\log(h_\theta(x)) \; & \text{if y = 1} \\ & \mathrm{Cost}(h_\theta(x),y) = -\log(1-h_\theta(x)) \; & \text{if y = 0} \end{align*}

$J(\theta)$ 的图像如下：

$y=1$ $1$ $0$ $0$ ，则会给出一个很高的代价差 $\theta$ $y=0$ 同理。

区别于平方损失函数，对数损失函数也是一个凸函数，但没有局部最优值。

6.5 简化的成本函数和梯度下降(Simplified Cost Function and Gradient Descent)

简化 $Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$

$y = 0$ $0$ $y = 1$ $1-y=0$ ，右边式子整体为0，也就和上面的分段函数一样了，而一个式子计算起来更方便。

$J(\theta) = - \frac{1}{m} \displaystyle \sum_{i=1}^m [y^{(i)}\log (h_\theta (x^{(i)})) + (1 - y^{(i)})\log (1 - h_\theta(x^{(i)}))]$

向量化实现：

$h = g(X\theta)$ $J(\theta) = \frac{1}{m} \cdot \left(-y^{T}\log(h)-(1-y)^{T}\log(1-h)\right)$

$\theta$ ，仍使用梯度下降法，算法同线性回归中一致：

\begin{align*} & \text{Repeat until convergence:} \; \lbrace \\ &{{\theta }_{j}}:={{\theta }_{j}}-\alpha \frac{\partial }{\partial {{\theta }_{j}}}J\left( {\theta} \right) \\ \rbrace \end{align*}

解出偏导得：

\begin{align*} & \text{Repeat until convergence:} \; \lbrace \\ & \theta_j := \theta_j - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)} \; & \text{for j := 0,1...n}\\ \rbrace \end{align*}

$h_\theta(x) = g\left(\theta^{T}x \right)$ ，不过求导后的结果也相同。

$\theta := \theta - \frac{\alpha}{m} X^{T} (g(X \theta ) - y)$

逻辑回归中代价函数求导的推导过程：

J(\theta) = - \frac{1}{m} \displaystyle \sum_{i=1}^m [y^{(i)}\log (h_\theta (x^{(i)})) + (1 - y^{(i)})\log (1 - h_\theta(x^{(i)}))]

$f(\theta) = {{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)$

$h_\theta(x) = g(z)$ $g(z) = \frac{1}{1+e^{(-z)}}$ ，则

\begin{align*} f(\theta) &= {{y}^{(i)}}\log \left( \frac{1}{1+{{e}^{-z}}} \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-\frac{1}{1+{{e}^{-z}}} \right) \\ &= -{{y}^{(i)}}\log \left( 1+{{e}^{-z}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{z}} \right) \end{align*}

$z=\theta^Tx^{(i)}$ $\theta_j$ $\theta_j$ $0$ ，都消去，则得：

\frac{\partial z}{\partial {\theta_{j}}}=\frac{\partial }{\partial {\theta_{j}}}\left( \theta^Tx^{(i)} \right)=x^{(i)}_j

所以有：

\begin{align*} \frac{\partial }{\partial {\theta_{j}}}f\left( \theta \right)&=\frac{\partial }{\partial {\theta_{j}}}[-{{y}^{(i)}}\log \left( 1+{{e}^{-z}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{z}} \right)] \\ &=-{{y}^{(i)}}\frac{\frac{\partial }{\partial {\theta_{j}}}\left(-z \right) e^{-z}}{1+e^{-z}}-\left( 1-{{y}^{(i)}} \right)\frac{\frac{\partial }{\partial {\theta_{j}}}\left(z \right){e^{z}}}{1+e^{z}} \\ &=-{{y}^{(i)}}\frac{-x^{(i)}_je^{-z}}{1+e^{-z}}-\left( 1-{{y}^{(i)}} \right)\frac{x^{(i)}_j}{1+e^{-z}} \\ &=\left({{y}^{(i)}}\frac{e^{-z}}{1+e^{-z}}-\left( 1-{{y}^{(i)}} \right)\frac{1}{1+e^{-z}}\right)x^{(i)}_j \\ &=\left({{y}^{(i)}}\frac{e^{-z}}{1+e^{-z}}-\left( 1-{{y}^{(i)}} \right)\frac{1}{1+e^{-z}}\right)x^{(i)}_j \\ &=\left(\frac{{{y}^{(i)}}(e^{-z}+1)-1}{1+e^{-z}}\right)x^{(i)}_j \\ &={({{y}^{(i)}}-\frac{1}{1+{{e}^{-z}}})x_j^{(i)}} \\ &={\left({{y}^{(i)}}-{h_\theta}\left( {{x}^{(i)}} \right)\right)x_j^{(i)}} \\ &=-{\left({h_\theta}\left( {{x}^{(i)}} \right)-{{y}^{(i)}}\right)x_j^{(i)}} \end{align*}

则可得代价函数的导数：

\frac{\partial }{\partial {\theta_{j}}}J(\theta) = -\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{\partial }{\partial {\theta_{j}}}f(\theta)}=\frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)}

6.6 进阶优化(Advanced Optimization)

$J(\theta)$ $\theta$ $J(\theta)$ $J(\theta)$ 值。

我们编写代码给出代价函数及其偏导数然后传入梯度下降算法中，接下来算法则会为我们最小化代价函数给出参数的最优解。这类算法被称为最优化算法(Optimization Algorithms)，梯度下降算法不是唯一的最小化算法¹。

一些最优化算法：

梯度下降法(Gradient Descent)
共轭梯度算法(Conjugate gradient)
牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)
- DFP算法
- 局部优化法(BFGS)
- 有限内存局部优化法(L-BFGS)
拉格朗日乘数法(Lagrange multiplier)

$\alpha$ （少一个参数少一份痛苦啊！）。

Octave/Matlab 中对这类高级算法做了封装，易于调用。

$J(\theta) = (\theta_1-5)^2 + (\theta_2-5)^2$ $\theta=\begin{bmatrix} \theta_1\\\theta_2\end{bmatrix}$ 的最优值。

下面为 Octave/Matlab 求解最优化问题的代码实例：

创建一个函数以返回代价函数及其偏导数：


xxxxxxxxxx
10
1
function [jVal, gradient] = costFunction(theta)
2
  % code to compute J(theta)
3
  jVal=(theta(1)-5)^2+(theta(2)-5)^2;
4
5
  % code to compute derivative of J(theta)
6
  gradient=zeros(2,1);
7
  
8
  gradient(1)=2*(theta(1)-5);
9
  gradient(2)=2*(theta(2)-5);
10
end

将 costFunction 函数及所需参数传入最优化函数 fminunc，以求解最优化问题：


xxxxxxxxxx
3
1
options = optimset('GradObj', 'on', 'MaxIter', 100);
2
initialTheta = zeros(2,1);
3
   [optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

'GradObj', 'on': 启用梯度目标参数（则需要将梯度传入算法）
'MaxIter', 100: 最大迭代次数为 100 次
@xxx: Octave/Matlab 中的函数指针
optTheta: 最优化得到的参数向量
functionVal: 引用函数最后一次的返回值
exitFlag: 标记代价函数是否收敛

注：Octave/Matlab 中可以使用 help fminunc 命令随时查看函数的帮助文档。

返回结果


xxxxxxxxxx
8
1
optTheta =
2
3
     5
4
     5
5
6
functionVal = 0
7
8
exitFlag = 1

6.7 多类别分类: 一对多(Multiclass Classification: One-vs-all)

一直在讨论二元分类问题，这里谈谈多类别分类问题（比如天气预报）。

原理是，转化多类别分类问题为多个二元分类问题，这种方法被称为 One-vs-all。

$h_\theta^{\left( i \right)}\left( x \right)=p\left( y=i|x;\theta \right), i=\left( 1,2,3....k \right)$

$h_\theta^{\left( i \right)}\left( x \right)$ $y=i$ $i$ 个分类）的可能性
$k$ $k=3$ 。

$h_\theta(x)$ $k$ $h_\theta(x)$ $k$ 维向量。

$k$ $h_\theta(x)$ $y = \mathop{\max}\limits_i\,h_\theta^{\left( i \right)}\left( x \right)$ 。

7 正则化(Regularization)

7.1 过拟合问题(The Problem of Overfitting)

对于拟合的表现，可以分为三类情况：

欠拟合(Underfitting)
无法很好的拟合训练集中的数据，预测值和实际值的误差很大，这类情况被称为欠拟合。拟合模型比较简单（特征选少了）时易出现这类情况。类似于，你上课不好好听，啥都不会，下课也差不多啥都不会。
优良的拟合(Just right)
不论是训练集数据还是不在训练集中的预测数据，都能给出较为正确的结果。类似于，学霸学神！
过拟合(Overfitting)
$J(\theta) \to 0$ ，但是对于不在训练集中的新数据，预测值和实际值的误差会很大，泛化能力弱，这类情况被称为过拟合。拟合模型过于复杂（特征选多了）时易出现这类情况。类似于，你上课跟着老师做题都会都听懂了，下课遇到新题就懵了不会拓展。

线性模型中的拟合情况(左图欠拟合，右图过拟合)：

逻辑分类模型中的拟合情况：

为了度量拟合表现，引入：

偏差(bias)
指模型的预测值与真实值的偏离程度。偏差越大，预测值偏离真实值越厉害。偏差低意味着能较好地反应训练集中的数据情况。
方差(Variance)
指模型预测值的离散程度或者变化范围。方差越大，数据的分布越分散，函数波动越大，泛化能力越差。方差低意味着拟合曲线的稳定性高，波动小。

据此，我们有对同一数据的各类拟合情况如下图：

据上图，高偏差意味着欠拟合，高方差意味着过拟合。

我们应尽量使得拟合模型处于低方差（较好地拟合数据）状态且同时处于低偏差（较好地预测新值）的状态。

避免过拟合的方法有：

减少特征的数量
- 手动选取需保留的特征
- 使用模型选择算法来选取合适的特征(如 PCA 算法)
- 减少特征的方式易丢失有用的特征信息
正则化(Regularization)
- 可保留所有参数（许多有用的特征都能轻微影响结果）
- 减少/惩罚各参数大小(magnitude)，以减轻各参数对模型的影响程度
- 当有很多参数对于模型只有轻微影响时，正则化方法的表现很好

7.2 代价函数(Cost Function)

很多时候由于特征数量过多，过拟合时我们很难选出要保留的特征，这时候应用正则化方法则是很好的选择。

$\theta_0 + \theta_1x + \theta_2x^2 + \theta_3x^3 + \theta_4x^4$ 这样一个复杂的多项式较易过拟合，在不减少特征的情况下， $\theta_3x^3$ $\theta_4x^4$ 等复杂部分，那复杂函数就变得简单了。

为了保留各个参数的信息，不修改假设函数，改而修改代价函数：

min_\theta\ \dfrac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + 1000\cdot\theta_3^2 + 1000\cdot\theta_4^2

$\theta_3$ $\theta_4$ $1000\cdot\theta_3^2 + 1000\cdot\theta_4^2$ $\theta_3$ $\theta_4$ $\theta_3x^3$ $\theta_4x^4$ 这两项的参数非常小，就相当于没有了，假设函数也就“变得”简单了，从而在保留各参数的情况下避免了过拟合问题。

$\theta_0$ 外的所有参数。

代价函数：

J\left( \theta \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}

$\lambda$ $\lambda > 0$
$\sum\limits_{j=1}^{n}$ $\theta_0$
$\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}$ : 正则化项

$\lambda$ 正则化参数类似于学习速率，也需要我们自行对其选择一个合适的值。

过大
- $x = \theta_0$ 的直线 )
- 无法正常去过拟问题
- 梯度下降可能无法收敛
过小
- 无法避免过拟合（等于没有）

正则化符合奥卡姆剃刀(Occam's razor)原理。在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率。

正则化是结构风险最小化策略的实现，是去过拟合问题的典型方法，虽然看起来多了个一参数多了一重麻烦，后文会介绍自动选取正则化参数的方法。模型越复杂，正则化参数值就越大。比如，正则化项可以是模型参数向量的范数。

7.3 线性回归正则化(Regularized Linear Regression)

应用正则化的线性回归梯度下降算法：

\begin{align*} & \text{Repeat}\ \lbrace \\ & \ \ \ \ \theta_0 := \theta_0 - \alpha\ \frac{1}{m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)} \\ & \ \ \ \ \theta_j := \theta_j - \alpha\ \left[ \left( \frac{1}{m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \right) + \frac{\lambda}{m}\theta_j \right], \ \ \ j \in \lbrace 1,2...n\rbrace\\ & \rbrace \end{align*}

也可以移项得到更新表达式的另一种表示形式

\theta_j := \theta_j(1 - \alpha\frac{\lambda}{m}) - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}

$\frac{\lambda}{m}\theta_j$ : 正则化项

应用正则化的正规方程法²：

\begin{align*} & \theta = \left( X^TX + \lambda \cdot L \right)^{-1} X^Ty \\ & \text{where}\ \ L = \begin{bmatrix} 0 & & & & \\ & 1 & & & \\ & & 1 & & \\ & & & \ddots & \\ & & & & 1 \\ \end{bmatrix} \end{align*}

$\lambda\cdot L$ : 正则化项
$L$ $0$ $n+1$ 维单位矩阵

Matlab/Octave 代码：


xxxxxxxxxx
10
1
>> L = eye(5)
2
>> L(1,1) = 0
3
4
L =
5
6
     0     0     0     0     0
7
     0     1     0     0     0
8
     0     0     1     0     0
9
     0     0     0     1     0
10
     0     0     0     0     1

$\lambda \cdot L$ $X^TX + \lambda \cdot L$ $X^TX$ 不可逆(non-invertible)。

7.4 逻辑回归正则化(Regularized Logistic Regression)

为逻辑回归的代价函数添加正则化项：

J(\theta) = - \frac{1}{m} \sum_{i=1}^m \large[ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log (1 - h_\theta(x^{(i)}))\large] + \frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2

$\frac{1}{2}$ ，则其求导结果也就一样了。

从而有应用正则化的逻辑回归梯度下降算法：

\begin{align*} & \text{Repeat}\ \lbrace \\ & \ \ \ \ \theta_0 := \theta_0 - \alpha\ \frac{1}{m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)} \\ & \ \ \ \ \theta_j := \theta_j - \alpha\ \left[ \left( \frac{1}{m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \right) + \frac{\lambda}{m}\theta_j \right], \ \ \ j \in \lbrace 1,2...n\rbrace\\ & \rbrace \end{align*}

1 https://en.wikipedia.org/wiki/List_of_algorithms#Optimization_algorithms ↩

2 week2 - 4.6 ↩