概率论与数理统计（probability theory and mathematical statistics）

0.概览

概率论与数理统计研究什么？

研究事件会导致多少种可能出现的结果（排列与组合）
如何算出不同的结果发生的概率有多少（随机事件、古典概型、几何概型）
在结果A已发生的情况下，结果B发生的概率（条件概率、全概率、贝叶斯）
预测某件事10次里会出现5次A结果的概率（二项分布）
预测某件事在1小时内发生5次的概率（泊松分布）
预测2个新生儿出生的时间间隔（指数分布）
人类的身高分布（正态分布）
人类的平均身高（数学期望）
结果是否比较没有悬念（方差）

1.排列与组合问题

排列（Arrangement）问题：

【描述】
从N个里面取出M个组成一组，并且有序，会有多少种组法？
用 $A_{n}^{m}$ 来表示排列问题。例如：从10个里面取出9个并排好序，用 $A_{10}^{9}$ 来表示。

【求解思路】
N个里面要取M个，
先取第一个，第一个有N种取法；
取第二个，有N-1种取法；（则取前2个有N*(N-1)种取法）
取第三个，有N-2种取法；（则取前3个有N*(N-1)(N-2)种取法）
...
取第M个，有N-M+1种取法；（则取前M个有N(N-1)*(N-2)...(N-M+1)种取法）

【求解公式】
$A_{n}^{m} = n * (n - 1) * (n - 2) . . . (n - m + 1) = \frac{n!}{(n - m)!}$

组合（Combination）问题：

【描述】
从N个里面取出M个组成一组，不考虑顺序，会有多少种组法？
用 $C_{n}^{m}$ 来表示组合问题。例如：从10个里面取出9个，用 $C_{10}^{9}$ 来表示。

【求解思路】
组合公式的推导是由排列公式去掉重复的部分而来的。
还是拿 $A_{10}^{9}$ 来看，取出的9个数会有 $A_{9}^{9}$ 种排序方式，但组合就是为了去掉重复的部分，因此
$C_{10}^{9} = \frac{A_{10}^{9}}{A_{9}^{9}} = \frac{10!}{1! \times 9!}$

【求解公式】
$C_{n}^{m} = \frac{A_{n}^{m}}{m!} = \frac{n!}{(n - m)! m!}$

2.概率论基本概念

试验（Trial）
1. 可重复进行
2. 结果不止一个
3. 实验前不明确哪个结果会发生
样本空间（sample space）可能出现的结果的一个集合，通常用S表示
随机事件（Random event）
样本空间的一个子集，也是一个集合。通常用A,B,C...表示
基本事件（elementary/fundamental event）
样本空间里的一个元素。
必然事件（certain event）
不可能事件（impossible event）
完备事件组
当A1、A2...这些随机事件两两之间没有交集，且它们的并集恰好等于样本空间，则称A1、A2...为一个完备事件组

事件的运算

交集（intersection set）、并集（union set）、补集、差集（difference set）四种。

交集（ $A \cap B$ ）：既属于A事件、又属于B事件的元素的集合
并集（ $A \cup B$ ）：在A事件中、或在B事件中的元素的集合
补集（ $A^{'}$ ）：除了A事件中的元素，其他所有元素的集合
差集（ $A - B$ ）：事件A中存在但不在事件B中的元素
空集（ $\emptyset$ ），一般用来形容A、B事件没有交集

事件发生的概率

用 $P (A)$ 表示A事件发生的概率。
用 $P (\bar{A})$ 或 $P (A^{'})$ 表示A事件不发生的概率。
用 $P (A B)$ 表示A事件以及B事件同时发生的概率。
用 $P (B | A)$ 表示在A事件已发生的前提下，B事件发生的概率。

事件的独立性

若A、B事件满足： $P (A B) = P (A) \times P (B)$ ，则称A、B是互相独立的事件

【若A、B互相独立，可推导出以下公式】
$P (B) = P (B | A)$
$P (B | A) = P (B | \bar{A})$

3. 古典概型

一个随机试验E，它的基本事件有限个，且每个基本事件出现的概率相等。则把这类试验叫拉普拉斯试验，把这类概率模型称为古典概型。

【例子】

求投出点数为偶数的骰子的概率
从0~10的整数中选出3个，不含5的概率
...

【表达公式】
$P (A) = \frac{A}{S}$
其中P(A)是指A事件发生的概率，S是样本空间（所有可能出现的结果的个数），A是一个随机事件（包含若干个基本事件）

4. 几何概型

无限个基本事件；每个基本事件出现的概率相等。因为一般通过画坐标轴来计算，因此也叫几何概型。

【例子】

时间
长度
面积

6. 条件概率（Conditional probability）

事件A发生的条件下，事件B发生的概率。

【表达公式】
可以用联合概率求得条件概率：
$P (B | A) = \frac{P (A B)}{P (A)}$

【衍生公式】
$(A B) = P (A) P (B | A) = P (B) P (A | B)$

$P (A B C) = P (A) P (B | A) P (C | A B)$

【例子】

假设一批水果有100个，有10个西瓜，20个苹果，70个橙；其中有坏西瓜3个，坏苹果7个，坏橙10个。（1）顾客A买了一个水果，求该水果是坏西瓜的概率
答：设顾客买的水果为西瓜为事件A，顾客买到坏水果为事件B，则要求P(AB) = 3 / 100 = 0.03 （2）顾客买了一个西瓜，求该西瓜是坏西瓜的概率答：P(B|A) = 3 / 10 = 0.3 ，结果跟 $P (A B) / P (A) = 0.03 / 0.1 = 0.3$ 一样。

7. 全概率公式 & 贝叶斯公式

【全概率公式】
定义：如果事件B1、B2、B3…Bi构成一个完备事件组，即它们两两互不相容，其和为全集；并且P（Bi)大于0，则对任一事件A有

$P (A) = P (A | B_{1}) P (B_{1}) + P (A | B_{2}) P (B_{2}) + . . . + P (A | B_{i}) P (B_{i})$

【贝叶斯公式】
如果是两个事件A、B，则可以通过条件概率公式推导出贝叶斯公式：

$P (A | B) = P (B | A) \times \frac{P (A)}{P (B)}$

如果是多个事件，则可以通过全概率公式 + 条件概率公式推导出贝叶斯公式：

$P (B_{i} | A) = \frac{P (A B_{i})}{P (A)} = \frac{P (B_{i}) P (A | B_{i})}{\sum_{i = 1}^{n} P (B_{i}) P (A | B_{i})}$

【全概率公式、贝叶斯公式的应用】
例题：某公司调查发现，有32%的顾客有收看牙膏广告。在收看的人中，有40%的人会购买牙膏；没有收看的人中，有12%的人会购买牙膏。
问：现随机选取一个消费者，发现该消费者已购买牙膏，计算这个人看过这个牙膏广告的概率。
答：
设事件A为“牙膏消费者看到了牙膏广告”
设事件B为“牙膏消费者购买了牙膏”
依题意，则有：
$P (A) = 0.32$ ， $P (\bar{A}) = 0.68$ ， $P (B | A) = 0.4$ ， $P (B | \bar{A}) = 0.12$
根据全概率公式，有：
$P (B) = P (A) \times P (B | A) + P (\bar{A}) \times P (B | \bar{A}) = 0.32 \times 0.4 + 0.68 \times 0.12 = 0.2096$
最后，根据贝叶斯公式，有：
$P (A | B) = P (B | A) \times \frac{P (A)}{P (B)} = 0.4 \times \frac{0.32}{0.2096} = 0.6106$
即已购买牙膏的消费者看过牙膏广告的概率为0.6106

8. 随机变量

跟随机事件一样，同样是为了研究事件发生的概率。
不同的是，随机变量将随机事件中的所有元素进行量化（用数字表示），从而更方便计算。

【抛硬币的结果】
随机事件（用集合描述）：

A = {正 ， 反}

随机变量（用函数描述）：

X (e) = {\begin{cases} 1, e = 扔 出 正 面 \\ 0, e = 扔 出 反 面 \end{cases}

随机变量的取值： $x_{k} (k = 1, 2. . .)$
随机变量对应的概率分布（分布律）：

图表法
x 1 2 ... 3
$P (x_{k})$ 0.1 0.2 ... 0.05
公式枚举法 $P (x_{1}) = 0.1, P (x_{2}) = 0.05 . . . P (x_{k}) = 0.05$

x	1	2	...	3
$P (x_{k})$	0.1	0.2	...	0.05

随机变量的特点

随机变量X=X(e)是一个单实值函数，即通过每个e求出的X都对应一个单值复数
X(e)中，每个e的取值都对应一定的概率
试验前，可能知道X(e)的所有可能出现的结果，但不确定是哪一个

离散型&连续型

【离散型随机变量】
是指发生的结果（可能的取值）是有限个的，对应着古典概型
例子：抛硬币（正、反），生小孩（男、女）

【连续型随机变量】
是指发生的结果（可能的取值）是不可数的，对应着几何概型
例子：明天的温度、明天的降雨量

常见的离散型随机变量

【0-1分布】

只有两种结果，用0和1分别表示

分布律：P(X=0) = P,P(X=1) = 1-P

例题：生男孩的概率为0.6，求生女孩的概率是多少。
解题思路：

因为结果只有两种（生男孩、生女孩），符合0-1分布
先转换为随机变量 $X (e) = {\begin{cases} 1, e = 生男孩 \\ 0, e = 生女孩 \end{cases}$
由题可知， P(1) = 0.6，因此根据分布律，可知P(0) = 1- 0.6 = 0.4，即生女孩概率为0.4

【二项分布(Binomial Distribution)】 $X \sim B (n, p)$

对于n重伯努利试验（试验结果要么A发生，要么A不发生），A发生的次数服从二项分布。

若随机变量满足二项分布，则用 $X \sim B (n, p)$ 表示。即A事件发生的概率为p，在n次试验中，A发生不同次数的概率分布。

分布律：
$P (X = k) = C_{n}^{k} \times P^{k} \times (1 - P)^{n - k} (k = 0, 1, 2. . . n)$

例题：抛圈圈礼物游戏，假设圈中的概率为0.2，求圈10次圈中5个礼物的概率

解题思路：
圈礼物游戏只有两种结果：圈中或者圈不中，因此若连续玩圈礼物游戏，圈中发生的次数会服从二项分布。

转换为随机变量 $X (e) = {\begin{cases} 1, e = 圈中 \\ 0, e = 圈不中 \end{cases}$
p(e=1) + p(e=0) = 1 ,且p(e=1)=0.2
根据二项分布的分布律，我们可以列出圈10次(n=10)圈中不同个数(k)的概率
圈中1个： $P (X = 1) = C_{10}^{1} \times {0.2}^{1} \times {0.8}^{9}$
圈中2个： $P (X = 2) = C_{10}^{2} \times {0.2}^{2} \times {0.8}^{8}$
...
圈中5个： $P (X = 5) = C_{10}^{5} \times {0.2}^{5} \times {0.8}^{5}$

【泊松分布】 $X \sim π (λ)$

泊松分布是通过二项分布推导所得，

泊松分布用 $X \sim π (λ)$ 表示。 $λ$ 代表单位时间内事件发生的平均次数。

分布律：
$P (X = k) = \frac{λ^{k} \times e^{- λ}}{k!} (λ > 0, λ = 0, 1, 2. . .)$

$π 读 p a i, λ 读 l a m d a, λ = n p$

泊松定理：假设X服从二项分布B(n,p)，当n较大且p较小时，X近似服从泊松分布 $π = (n p)$
即n较大且p较小时，有 $P (X = k) = C_{n}^{k} \times P^{k} \times (1 - P)^{n - k} \approx \frac{λ^{k} \times e^{- λ}}{k!}$

例题：零件次品率为0.1%，那么1000个零件至少有两个次品的概率为多少？
解答：虽然服从二项分布，但因为n较大(1000)p较小(0.1%)，因此我们可用泊松定理来计算。
X=次品的数量
p=次品概率
X ~ B(1000，0.1%) （X服从二项分布）
求 $P (X \geq 2)$

$P (X \geq 2) = 1 - P (X = 0) - P (X = 1)$

根据以下两条公式：
$π (x = k) = \frac{λ^{k} \times e^{- λ}}{k!}$
$λ = n p = 1000 * 0.001 = 1$
有
$P (x = 0) = \frac{1^{0} \times e^{- 1}}{0!}$
$P (x = 1) = \frac{1^{1} \times e^{- 1}}{1!}$
于是
$P (X \geq 2) \approx 0.2642$

【超几何分布】

例题：100个学生里，有60个男生，40个女生，取其中的10人。问：取10人中男生人数为K个的概率。

答： $P (X = k) = \frac{C_{60}^{k} C_{40}^{10 - k}}{C_{100}^{10}}$

概率分布函数

定义：研究一个随机变量ξ取值小于某一数值x的概率，这概率是x的函数，
称这种函数为随机变量ξ的分布函数，简称分布函数，记作F(x)，即F(x)=P(ξ<x) (-∞<x<+∞)

【离散型随机变量分布函数】

对于离散型随机变量，设 $x_{1}, x_{2} . . ., x_{n}$ 为变量X的取值，而 $p_{1}, p_{2} . . ., p_{n}$ 为对应上述取值的概率，则离散型随机变量X的概率分布为

F (x) = \sum_{i = 1}^{n} p_{i}

也可以通过枚举的方式表示：

F (x) = {\begin{cases} 0, x < 1 \\ 0.1, 1 \leq x < 2 \\ 0.3, 2 \leq x < 3 \\ 0.6, 3 \leq x < 4 \\ 1, 4 \leq x < 4 \end{cases}

【连续型随机变量分布函数】

F (x) = \int_{- \infty}^{x} f (x) d x

其中，f(x)是随机变量X的概率密度函数。

概率密度函数

定义：用来描述一个随机变量ξ取某个值时的概率 $y = f (x)$ ，其中x是随机变量的取值，y是概率。

【离散型随机变量密度函数】

对于离散型随机变量，设 $x_{1}, x_{2} . . ., x_{n}$ 为变量X的取值，而 $p_{1}, p_{2} . . ., p_{n}$ 为对应上述取值的概率，则离散型随机变量X的概率分布为

f (x) = p (x)

也可以通过枚举的方式表示：

f (x) = {\begin{cases} 0, x = 0 \\ 0.1, x = 1 \\ 0.2, x = 2 \\ 0.3, x = 3 \\ 0.4, x = 4 \end{cases}

【连续型随机变量密度函数】

略

常见的连续型随机变量

【均匀分布】 $X \sim U (a, b)$

用 $X \sim U (a, b)$ 表示随机变量X服从均匀分布。
均匀分布，即指连续型随机变量X在某一段区间中（比如a<x<b），得到哪个指的概率都是k（k为一个任意常量）。

概率密度函数：

f (x) = {\begin{cases} \frac{1}{b - a}, a < x < b \\ 0, 其 他 \end{cases}

概率分布函数：

F (x) = {\begin{cases} 0, x < a \\ \frac{x - a}{b - a}, a \leq x < b \\ 1, x \geq b \end{cases}

【指数分布】 $X \sim E (λ)$

用 $X \sim E (λ)$ 表示随机变量X服从指数分布。

概率密度函数：

f (x) = {\begin{cases} λ e^{- λ x}, x > 0 \\ 0, x <= 0 \end{cases}

概率分布函数：

F (x) = {\begin{cases} 1 - e^{- λ x}, x > 0 \\ 0, x <= 0 \end{cases}

【正态分布】 $X \sim N (μ, σ^{2})$

用 $X \sim N (μ, σ^{2})$ 表示随机变量X服从正态分布。
绝大多数随机事件都服从正态分布。如人类的身高分布、IQ高低分布。

概率密度函数： $ϕ (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$

概率分布函数： $Φ (x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{x} e^{- \frac{(t - μ)^{2}}{2 σ^{2}}} d t$

其中， $σ^{2}$ (sigma方)表示（总体）方差， $μ$ (miu) 表示（总体）均值。
$\frac{x - μ}{σ}$ 称为标准z分数。z分数表示“X的某一个取值离均值有多少个标准差”。

Note

标准正态分布（又称为高斯分布、Z分布）

是指数学期望为0，方差为1的正态分布，”X服从标准正态分布“写作 $X \sim N (0, 1)$
任意一个正态分布都可以通过标准化的变换（也称U变换、Z分数公式）转换成标准正态分布

标准化公式

$U = \frac{X - μ}{σ}$ ， $U \sim N (0, 1)$ 新的随机变量一般称为U变量或者Z变量

标准正态分布公式

$f (x) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$

求随机变量函数的密度函数（重要）

【例题】
假设有随机变量X，以及随机变量函数Y=2X+2。
X的分布函数为 $F (x) = 0.2 x^{2}, 0 < x < 5$ ，求Y的密度函数。

分布函数法：

$F (y) = P (Y <= y) = P (2 X + 2 <= y) = P (X <= (y - 2) / 2)$
即当x取(y-2)/2时，概率跟y相等。
将 $x = (y - 2) / 2$ ，代入 $F (x)$ ，得：
$F ((y - 2) / 2) = 0.2 * (y - 2)^{2} / 4$ 对F(y)求导，即得Y的密度函数f(y)。

【总结】

根据随机变量函数（Y=2X+2），先将Y由因变量转为自变量（X=(Y-2)/2）
再放入X的分布函数，即可求得Y的分布函数；
最后对Y的分布函数求导，便可得到Y的密度函数。

多维随机变量

上面我们讲的都是一维随机变量，只研究事件的一种属性。

假设我们想同时研究人的身高和体重的分布，我们可以将身高定义为随机变量X，体重定义为随机变量Y；

则由它们构成的向量(X,Y)，叫做二维随机变量，或者二维随机向量。

联合分布律

二维随机变量的分布律，可以用一个二维表格来表示。

X\Y	5	6	7
10	0.1	0.15	0.25
12	0.05	0.15	0.1
15	0.1	0.05	0.05
P(Y=yi)

比如第一行，第一列的0.1就表示：X=10,Y=5出现的概率为0.1，可写成 $P_{11} = 0.1$ 。

多维随机变量的分布律又叫联合分布律。

联合分布函数

就是指(X,Y)这个二维随机变量的分布函数，用F(X,Y)表示。

边缘分布

二维随机变量中的X单独的分布律或者Y单独的分布律，就叫二维随机变量的边缘分布。

二维随机变量(X,Y)有2个边缘分布：P(X=xi) 和 P(Y=yi)

边缘分布P(X=x1)也可以写成 $P_{1.}$ ，边缘分布P(Y=y2)也可以写成 $P_{.2}$

独立性

研究两个随机变量是否存在依赖关系。

当P(AB) = P(A) * P(B)，则我们称随机变量A,B互相独立。

对于二维随机变量，就是联合分布函数满足 F(x,y) = F(x) * F(y)时，表示X,Y互相独立。

常见的二维分布

二维均匀分布

略

二维正态分布

略

二维随机变量函数的分布

一般就是已知随机变量X,Y的联合分布律，需要你求随机变量Z=f(x,y)的分布律。

例题：

已知X,Y的联合分布律如下。

X\Y	1	2	3
1	1/5	0	1/5
2	1/5	1/5	1/5

求Z = X+Y的分布律

一维随机变量的特征

观察数据的平均情况、平均值：数学期望
观察数据的离散程度：方差

数学期望

数学期望，实质就是随机变量值的概率加权平均

离散型随机变量的数学期望的定义：

设随机变量X的分布律为 $P (X = x_{i}) = p_{i} (i = 1, 2, . . .)$ ，若级数 $\sum_{i = 0}^{\infty} x_{i} p_{i}$ 绝对收敛，则称 $\sum_{i = 0}^{\infty} x_{i} p_{i}$ 为随机变量X的数学期望
记为E(X)，即

E (X) = \sum_{i = 0}^{\infty} x_{i} p_{i} = x_{1} p_{1} + x_{2} p_{2} + . . . + x_{i} p_{i}

连续型随机变量的数学期望的定义：

设随机变量X的概率密度为f(x)，若积分 $\int_{- \infty}^{+ \infty} x f (x) d x$ 绝对收敛
则称积分 $\int_{- \infty}^{+ \infty} x f (x) d x$ 为X的数学期望，即

E (X) = \int_{- \infty}^{+ \infty} x f (x) d x

什么是绝对收敛？

数学期望的性质

设C为常数，则有E(C) = C
设X为随机变量，C为常数，则有E(CX) = CE(X)
E(X+Y) = E(X) + E(Y)
E(aX+bY) = aE(X)+bE(Y)
若X,Y相互独立，则有E(XY) = E(X)E(Y)

随机变量函数的数学期望

假设有离散型随机变量X，其分布律为 $P (X = x_{i}) = p_{i}, i = 1, 2. . .$ ；有另一随机变量Y =g(x)
若级数 $\sum_{i = 1}^{\infty} g (x_{i}) p_{i}$ 绝对收敛，则称Y=g(x)的数学期望为：

E (Y) = \sum_{i = 1}^{\infty} g (x_{i}) p_{i}

例子：

$Y = x^{2}$	1	4	9
X	1	2	3
	0.1	0.2	0.7

$E (X) = 0.1 * 1 + 0.2 * 2 + 0.3 * 3 = 1.4$
$E (Y) = {0.1}^{2} * 1 + {0.2}^{2} * 2 + {0.3}^{2} * 3 = 0.36$

同理，假设有连续型随机变量X，其概率密度函数为以及随机变量Y=g(x)；
则Y=g(x)的数学期望为：

E (Y) = \sum_{- \infty}^{+ \infty} g (x) f (x) d x

方差

定义

设X是一个离散型随机变量，记D(X)为X的方差，则有：

D (X) = \sum_{i = 1}^{\infty} (x_{i} - E (X))^{2} p_{i} = (x_{1} - E (X))^{2} p_{1} + (x_{2} - E (X))^{2} p_{2} + . . . + (x_{i} - E (X))^{2} p_{i}

实质就是偏差平方的加权平均，因此也可以表示成E{(X-E(X))^2}，即求“每个X与数学期望的偏差的平方的数学期望”
根据数学期望的性质，简化后，方差可这样表示：

D (X) = E (X^{2}) - E (X)^{2}

性质

C为常数，则有D(C)=0
X为随机变量，C为常数，则 $D (C X) = C^{2} D (X)$
X为随机变量，C为常数，则D(X+C)=D(X)
若随机变量X,Y互相独立，则D(X+Y) = DX+DY

常见随机变量的数学期望和方差

分布	参数	分布律或概率密度函数	数学期望	方差
0-1分布	p	$P (x = k) = p^{k} (1 - p)^{1 - k} (k = 0, 1)$	p	p(1-p)
二项分布B(n,p)	n,p	$P (x = k) = C_{n}^{k} p^{k} (1 - p)^{1 - k}$	np	np(1-p)
泊松分布P( $λ$ )	$λ$	$P (x = k) = \frac{λ^{k} e^{- λ}}{k!}$	$λ$	$λ$
均匀分布U(a,b)	a,b(a<b)	$f (x) = \frac{1}{b - a}, (a < x < b)$	$\frac{a + b}{2}$	$\frac{(b - a)^{2}}{12}$
正态分布 $N (μ, σ^{2})$	$μ, σ^{2}$	$ϕ (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$	$μ$	$σ$
指数分布 $e (λ)$	$λ$		$\frac{1}{λ}$	$\frac{1}{λ^{2}}$

二维随机变量的特征

研究二维随机变量(X,Y)中，X和Y的线性相关性：协方差

什么是线性相关？
对于随机变量X,Y，有Y=aX+b这样的关系，则称X,Y为线性相关

协方差

定义：设(X,Y)是二维随机变量，且 $E (X)$ 和 $E (Y)$ 都存在，如果 $E [(X - E (X)) (Y - E (Y))]$ 存在，则称其为随机变量X和Y的协方差。
记作 $C o v (X, Y)$ 。即

C o v (X, Y) = E [(X - E (X)) (Y - E (Y))] = E (X Y) - E (X) E (Y)

可以发现，协方差的求值公式与方差的非常像，可以联合一起记忆。

协方差为正，则表明X,Y正相关；
协方差为负，则表明X,Y负相关；

协方差的性质

Cov(X,Y) = Cov(Y,X)
Cov(X,Y+Z) = Cov(X,Y) + Cov(X,Z)
Cov(aX,bY) = abCov(X,Y)
Cov(a,X) = 0，a为任意常数
Cov(aX1+bX2,Y) = aCov(X1,Y) + bCov(X2,Y)
如果X,Y相互独立，Cov(X,Y)=0
D(X+Y) = D(X)+D(Y)+2Cov(X,Y)

略

依概率收敛

略

大数定律

名称	大数定律	注释
切比雪夫大数定律
辛钦大数定律
伯努利大数定律

什么是独立同分布？

中心极限定理（重要）

名称	中心极限定理
林德伯格-莱维中心极限定理
棣(li)莫弗-拉普拉斯中心定理

9. 数理统计

演绎法（deduction）

通过定理（一定正确的理论）推断出其他定理。主要应用的学科：数学

归纳法（induction）

通过大量的实验，总结出一个大概率正确的规律。主要应用的学科：物理、化学、生物

数理统计就是通过归纳法——通过大量的实验去总结出规律。

研究的问题类似：

全球人类的身高分布、平均身高
100w个产品的平均使用寿命

这些问题因为统计对象的数量实在太多，统计难度大，因此一般不会对所有对象进行实验（比如不会真的统计全球人的身高）
而是从中抽出一部分的统计对象（样本），对样本进行统计分析，得到的分析结果用来描述整体数据的情况。

名称	公式	定义
样本均值	$E (X) = \sum_{i = 0}^{\infty} x_{i} p_{i} = x_{1} p_{1} + x_{2} p_{2} + . . . + x_{i} p_{i}$	定义见“数学期望”，反映数据的中心位置
样本方差	$D (X) = \sum_{i = 1}^{\infty} (x_{i} - E (X))^{2} p_{i}$	定义见“方差”，反映总体分散情况
样本标准差	$\sqrt{D (X)}$	定义见“标准差”，反映总体分散情况
样本k阶原点矩	$μ = \frac{\sum_{i = 1}^{n} x^{k}}{n}$	也叫“原点动差”，1阶原点动差实质就是样本均值
样本k阶中心矩	$μ = \frac{\sum_{i = 1}^{n} (x - \bar{x})^{k}}{n}$	也叫“中心动差”，2阶中心动差实质就是方差

样品分布与抽样分布

比如收集100个人的身高，并列成以下表：

人	X1	X2	X3	...	X100
身高	166	165	170	...	180

这是抽样后的样品分布，直接反映统计样本的未经处理、最直接的数据的分布情况；

而抽样分布，则重复抽样N次，（重复从统计总体中抽取数量相同的样本），并研究其统计量的分布情况。

同样收集100个人的身高，重复收集3次，并计算每批次样本的均值、方差，最后总结成以下表格：

批次	第一批	第二批	第三批
样本均值	164	169	168
样本方差	2069.49	5320	4865

三大抽样分布

$x^{2}$ （开方）分布
定义：设 $X_{1}$ , $X_{2}$ ,..., $X_{n}$ 相互独立且均来自总体 $X \sim N (0, 1)$ （标准正态分布），则称统计量

x^{2} = X_{1}^{2} + X_{2}^{2} + . . . + X_{n}^{2}

服从自由度为n的 $x^{2}$ 分布，记为 $x^{2} \sim x^{2} (n)$