0.引言

当对数据进行回归分析时，经常会用到两类回归模型：

一类是针对连续型数据进行的线性回归，如下图（图片来源：维基百科）所示

这种回归模型的公式是：

$$y=a_0 + a_1 x_1 + a_2 x_2 + \cdots + a_n x_n$$

还有一类是针对分类数据进行的logistic回归，如下图（图片来源）

这种回归模型的公式则是：

$$y=\frac{1}{1+e^{-(a_0 + a_1 x_1 + a_2 x_2 + \cdots + a_n x_n)}}$$

这里形如 $$y=\frac{1}{1+e^{-z}}$$ 的函数被称为 sigmod 函数。

那么问题来了：这两种回归模型，是否有可能统一到一种更加抽象的模型中？这两种形式完全不一样的模型，是不是只是某种更加广义的模型的特例？

答案是肯定的，这个更加广义、抽象的模型就叫做广义线性模型(Generalized Linear Model)，简称 GLM。常见的线性回归、logistic 回归、泊松回归等等都是它的特殊形式。

不仅如此，在 GLM 的视角下，我们能够合理地解释：为什么logistic 回归要用sigmod 函数 $y=\frac{1}{1+e^{-z}}$？为什么泊松回归要用指数函数$y=e^{z}$？选择这些函数不仅仅是因为他们的函数曲线形状与观测值很接近，其背后有更加深层次的统计基础。

1. 广义线性模型的定义

广义线性模型建立在三个定义的基础上，分别为：

定义线性预测算子$$\eta=\theta^Tx$$
定义y 的估计值 $$h(x,\theta)= E(y|x,\theta)$$
定义 y 的估值概率分布属于某种指数分布族：$$\Pr(y|x,\theta)= b(y) exp({\eta^TT(y)-a(\eta)})$$

接下来详细解释各个定义

1.1. 定义一：线性预测算子

广义线性模型的名字中有『线性』两个字，自然它包含了线性计算的过程，也就是它的假设之一，定义线性预测算子(linear predictor)为：

$$\eta=\theta^Tx$$

这里的 $\theta$ 和$x$都是向量，写成标量形式就是：

$$\eta=\theta_0x_0 + \theta_1x_1 + \cdots+ \theta_nx_n$$

通常 $x_0 = 1$。

不要问为何这么定义，这可以理解为『广义线性模型』约定的规则。

1.2. 定义二：期望估计

如果以概率论的方式解释回归（regression）这一过程，我们可以把通过给定的自变量 $x$，和相关的线性参数 $\theta$ 估计因变量 y 的过程。理解为求解条件概率 $\Pr(y|x,\theta)$ 的过程。也就是在给定了$\eta=\theta^Tx$的条件下，求解因变量 y 的概率分布曲线。然后，计算这个概率分布的期望值 $E(y|x,\theta)$，作为 y 的估计值，同时这个概率分布的方差 $Var(y|x,\theta)$作为 y 的估计值的方差。

因此第二个假设就是：y 的估计值就是 $\Pr(y|x,\theta)$ 的期望值。如果用 $h(x,\theta)$表示 y 的估计值，这一假设写为：

$$h(x,\theta) = E(y|x,\theta)$$

1.3. 定义三：指数分布族

在毫无头绪的情况下，要求解$\Pr(y|x,\theta)$的函数表达式不太可行。因此广义线性模型做出假设，$\Pr(y|x)$的概率分布服从如下形式：

$$\Pr(y|x,\theta) = b(y) e^{\eta^TT(y)-a(\eta)}$$

注意，这里的$\eta=\theta^Tx$，因此这个概率分布也可以写成：

$$\Pr(y|\eta) = b(y) e^{\eta^TT(y)-a(\eta)}$$

其中 $b(y)$，$T(y)$ 是 $y$ 的函数，$a(\eta)$ 是 $\eta$ 的函数。 a,b,T 这三个函数的形式未知，是一种抽象的表达方式。一般情况下$T(y)=y$，后文中所有 $T(y)$都会直接写成$y$。

凡是能写成这个形式的概率分布函数，都称之为指数分布族中的一种特例。如果 $a,b,T$ 选择某种特殊的函数形式，指数分布族就会退化为某种特殊的概率分布（比如二项分布、正态分布），而具体的分布形式就会对应了具体的回归模型。

后文将具体介绍 a,b,T 在什么形式下会变为常见的回归模型。本文还将继续对这个GLM进行抽象地分析。

2. 广义线性模型的特征

为什么要把 y 的条件分布定义为这么奇怪的指数分布族？这是因为，在这样的定义下，我们可以证明：

$\Pr(y|\eta)$ 的期望值 $$E(y|\eta)=\frac{d}{d\eta}a({\eta})$$
$\Pr(y|\eta)$ 的方差 $$Var(y|\eta)=\frac{d^2}{d\eta^2}a({\eta})$$

如此简洁的期望和方差意味着：一旦待估计的 $y$ 的概率分布写成了某种确定的指数分布族的形式（也就是给定了具体的 a,b,T），那么我们可以直接套用公式 $h(x,\theta)=E(y|x,\theta)=\frac{d}{d\eta}a({\eta})$ 构建回归模型。通过这个规律，我们可以解释为什么 logistic 回归要用sigmod 函数 $y=\frac{1}{1+e^{-z}}$ 建模。

指数分布族的这两个特征如此简洁，以至于我忍不住试着证明这两个结论。如何通过 GLM 得出常见的线性模型、logistic 回归则在后面的博客中介绍。

2.1. 证明指数分布族的期望

首先定义似然函数 $L(y,\eta)$：

$$L(y,\eta) = \log \Pr(y|\eta) = \log(b(y) e^{\eta~y)-a(\eta)})$$

化简为:

$$L(y,\eta) = \log(b(y)) + \eta~y – a(\eta)$$

再定义其对 $\eta$的倒数 U:

$$U(y,\eta) = \frac{d}{d\eta} L(y,\eta) = y – \frac{d}{d\eta} a(\eta)$$

可以证明 $U(y,\eta)$ 的期望 $E(U(y,\eta))=0$（证明过程放在后面），那么有 $$E(y – \frac{d}{d\eta} a(\eta)) = 0$$ $$E(y)= E(\frac{d}{d\eta} a(\eta))$$

因为$$\frac{d}{d\eta} a(\eta)$$是一个与 y 无关的函数，因此$$\frac{d}{d\eta} a(\eta)$$的期望就是它本身，因此

$$E(y)= \frac{d}{d\eta} a(\eta)$$

2.1.1 证明E(U) = 0

接下来证明为什么 E(U) = 0

之前定义了 $$U(y,\eta)=\frac{d}{d\eta}L(y,\eta)=\frac{d}{d\eta}\log\Pr(y|\eta)$$

带入其期望公式$$E(U(y,\eta))=\int{U(y,\eta)\Pr(y|\eta)dy}$$中，则有：

$$E(U(y,\eta))=\int{\frac{d}{d\eta}\log\Pr(y|\eta)\Pr(y|\eta)dy}$$

考虑到 $$d\log\Pr(y|\eta) = \frac{1}{\Pr(y|\eta)} d \Pr(y|\eta)$$，有

$$E(U(y,\eta))=\int{\frac{1}{\Pr(y|\eta)}\frac{d}{d\eta}\Pr(y|\eta)\Pr(y|\eta)dy}$$

化简得到

$$E(U(y,\eta))=\int{\frac{d}{d\eta}\Pr(y|\eta)dy}$$

将微分符号提取出来，有

$$E(U(y,\eta))=\frac{d}{d\eta}\int{\Pr(y|\eta)dy}$$

考虑到概率分布的归一化条件$$\int{\Pr(y|\eta)dy}=1$$，则有

$$E(U(y,\eta))=\frac{d}{d\eta}1$$

常数的微分为0，因此

$$E(U(y,\eta))=0$$

2.2. 证明指数分布族的方差

先分析$E(U^2)$，带入$U(y,\eta) = y – \frac{d}{d\eta} a(\eta)$，有：

$$E(U^2(y,\eta))=\int{(y – \frac{d}{d\eta} a(\eta))^2\Pr(y|\eta)dy}$$

注意，刚刚已经证明了$E(y)= \frac{d}{d\eta} a(\eta)$，带入上式中，有

$$E(U^2(y,\eta))=\int{(y – E(y))^2\Pr(y|\eta)dy}$$

注意，y 的方差的定义就是 $Var(y|\eta)=\int{(y – E(y))^2\Pr(y|\eta)dy}$

所以我们得到结论：

$$Var(y|\eta)=E(U^2(y,\eta))$$

又因为可以证明 $E(-\frac{d}{d\eta}U) = E(U^2)$（具体证明过程放在最后）。那么有：

$$Var(y|\eta)=E(-\frac{d}{d\eta}U)$$

现在要求解 $$E(-\frac{d}{d\eta}U(y,\eta))$$，将$$U(y,\eta) = y – \frac{d}{d\eta} a(\eta)$$带入其中，有：

$$Var(y|\eta)=E(-\frac{d}{d\eta}U(y,\eta))=E(-\frac{d}{d\eta}(y – \frac{d}{d\eta} a(\eta)))=E(\frac{d^2}{d\eta^2}a({\eta}))$$

同理，式子$$\frac{d^2}{d\eta^2}a({\eta})$$与 y 无关，其期望为常数，得证

$$Var(y|\eta)=\frac{d^2}{d\eta^2}a({\eta})$$

2.2.1 证明$E(-\frac{d}{d\eta}U) = E(U^2)$

通过证明式子 $E(U^2+\frac{d}{d\eta}U)=0$来证明$E(-\frac{d}{d\eta}U) = E(U^2)$

之前定义了

$$U(y,\eta)=\frac{d}{d\eta}\log\Pr(y|\eta)$$

带入$E(U^2+\frac{d}{d\eta}U)$中，有 $$E((\frac{d}{d\eta}\log\Pr(y|\eta))^2+\frac{d}{d\eta}(\frac{d}{d\eta}\log\Pr(y|\eta)))$$

用期望公式$E(f(y))=\int{f(y)\Pr(y)}dy$展开，有：

$$E(U^2+\frac{d}{d\eta}U)=\int{((\frac{d}{d\eta}\log\Pr(y|\eta))^2+\frac{d}{d\eta}(\frac{d}{d\eta}\log\Pr(y|\eta)))\Pr(y|\eta)dy}$$

因为 $\frac{d}{d\eta}\log\Pr(y|\eta)=\frac{1}{\Pr(y|\eta)}\frac{d}{d\eta}\Pr(y|\eta)$，则有

$$E(U^2+\frac{d}{d\eta}U)=\int{[\frac{1}{\Pr(y|\eta)^2}(\frac{d}{d\eta}\Pr(y|\eta))^2+\frac{d}{d\eta}(\frac{1}{\Pr(y|\eta)}\frac{d}{d\eta}\Pr(y|\eta))]\Pr(y|\eta)dy}$$

根据微分的规则：

$$\frac{d}{d\eta}(\frac{1}{\Pr(y|\eta)}\frac{d}{d\eta}\Pr(y|\eta))=\frac{d}{d\eta}(\frac{1}{\Pr(y|\eta)})\frac{d}{d\eta}\Pr(y|\eta) + \frac{1}{\Pr(y|\eta)}\frac{d}{d\eta}(\frac{d}{d\eta}\Pr(y|\eta))$$

$$\frac{d}{d\eta}(\frac{1}{\Pr(y|\eta)}\frac{d}{d\eta}\Pr(y|\eta))=\frac{-1}{\Pr(y|\eta)^2}[\frac{d}{d\eta}(\Pr(y|\eta)]^2 + \frac{1}{\Pr(y|\eta)}\frac{d^2}{d\eta^2}\Pr(y|\eta)$$

带入上式中，有

$$E(U^2+\frac{d}{d\eta}U)=\int{[\frac{1}{\Pr(y|\eta)^2}(\frac{d}{d\eta}\Pr(y|\eta))^2+\frac{-1}{\Pr(y|\eta)^2}[\frac{d}{d\eta}(\Pr(y|\eta)]^2 + \frac{1}{\Pr(y|\eta)}\frac{d^2}{d\eta^2}\Pr(y|\eta)]\Pr(y|\eta)dy}$$

消去相反项，有：

$$E(U^2+\frac{d}{d\eta}U)=\int{[\frac{1}{\Pr(y|\eta)}\frac{d^2}{d\eta^2}\Pr(y|\eta)]\Pr(y|\eta)dy}$$

再次化简：

$$E(U^2+\frac{d}{d\eta}U)=\int{[\frac{d^2}{d\eta^2}\Pr(y|\eta)]dy}$$

交换微积分顺序：

$$E(U^2+\frac{d}{d\eta}U)=\frac{d^2}{d\eta^2}\int{\Pr(y|\eta)dy}$$

因为概率分布的归一化条件 $\int{\Pr(y|\eta)dy}=1$，则有

$$E(U^2-\frac{d}{d\eta}U)=\frac{d^2}{d\eta^2}1 = 0$$

得证

$$E(-\frac{d}{d\eta}U) = E(U^2)$$

参考资料：

http://en.wikipedia.org/wiki/Linear_regression
http://alumni.media.mit.edu/~tpminka/courses/36-350.2001/lectures/day32/
https://www.stat.tamu.edu/~suhasini/teaching613/exponential_family.pdf
http://www.rni.helsinki.fi/~boh/Teaching/GLMs/glmsl1.pdf

《广义线性模型学习笔记（一）——定义》有18个想法

lovelucy 2015年1月30日 21:54

好专业。。。

回复

xg1990 2015年4月15日 16:32

表达能力太差，写得让人看不懂，才产生专业的错觉 -.-||

回复

wing 2019年2月19日 19:30

看不懂是你知识储备不够，自己菜不要瞎喷别人

回复

RainForcement Learning 2019年2月20日 10:22

你没注意是作者自谦嘛？
RokeAbbey 2019年6月2日 17:03

哈哈他是自谦啦这个是作者嘿嘿

cypher 2024年3月11日 09:39

感谢互联网，能让我在九年之后还能看到这篇文章。

回复

铲铲明 2015年6月29日 10:38

请问大神有没有CMAQ的安装编译经验…

回复

xg1990 2015年6月29日 15:05

没…………

回复

harnack 2016年7月31日 18:01

公式全都显出不出来？

回复

xg1990 2016年8月1日 19:56

多谢提醒！现在已修复

回复

cy 2016年12月13日 17:43

写的很清楚，收益，谢谢！

回复
金铁锤 2019年4月10日 16:15

额，写的很好呀，咋没有后续了呢

回复
华科小生 2019年7月17日 17:02

您好，想问一个问题，对于第二个假设，因为最终Y都是一个分布，要把值固定下来，所以需要求Y的期望，作为模型预测的估计值，所以只要最终得到的Y是个概率分布，那么就需要求期望，是不是这样的?

回复
我滴个乖乖啊 2021年3月7日 11:53

写的很好，怎么没用后续了呢

回复
bill0228 2021年8月9日 11:32

比直接看NG笔记要明白不少，赞一个！（另外提醒博主2.1节里U是导数写成“倒数”了）

回复
大帅哥 2024年4月2日 20:08

太赞了

回复
√√√ 2024年10月31日 19:23

感谢互联网，让我遇见菩萨ヾ(•ω•`)o

回复
亚索 2025年8月18日 22:02

这个结论太漂亮了，直接就知道了广义线性模型的意义：
一旦待估计的 𝑦 的概率分布写成了某种确定的指数分布族的形式（也就是给定了具体的 a,b,T），那么我们可以直接套用公式 ℎ ( 𝑥 , 𝜃 ) = 𝐸 ( 𝑦 | 𝑥 , 𝜃 ) = 𝑑 𝑑 𝜂 𝑎 ( 𝜂 ) 构建回归模型。

https://xg1990.com/blog/archives/304

回复