概率论与数理统计(probability theory and mathematical statistics)

参考

B站视频:《概率论与数理统计》零基础精讲课|木叔主讲

0.概览

概率论与数理统计研究什么?

  • 研究事件会导致多少种可能出现的结果(排列与组合)
  • 如何算出不同的结果发生的概率有多少(随机事件、古典概型、几何概型)
  • 在结果A已发生的情况下,结果B发生的概率(条件概率、全概率、贝叶斯)
  • 预测某件事10次里会出现5次A结果的概率(二项分布)
  • 预测某件事在1小时内发生5次的概率(泊松分布)
  • 预测2个新生儿出生的时间间隔(指数分布)
  • 人类的身高分布(正态分布)
  • 人类的平均身高(数学期望)
  • 结果是否比较没有悬念(方差)

1.排列与组合问题

排列(Arrangement)问题:

【描述】
从N个里面取出M个组成一组,并且有序,会有多少种组法?
AnmA^m_n来表示排列问题。例如:从10个里面取出9个并排好序,用A109A^9_{10}来表示。

【求解思路】
N个里面要取M个,
先取第一个,第一个有N种取法;
取第二个,有N-1种取法;(则取前2个有N*(N-1)种取法)
取第三个,有N-2种取法;(则取前3个有N*(N-1)(N-2)种取法)
...
取第M个,有N-M+1种取法;(则取前M个有N
(N-1)*(N-2)...(N-M+1)种取法)

【求解公式】
Anm=n(n1)(n2)...(nm+1)=n!(nm)!A^m_n = n*(n-1)*(n-2)...(n-m+1) = \frac{n!}{(n-m)!}

组合(Combination)问题:

【描述】
从N个里面取出M个组成一组,不考虑顺序,会有多少种组法?
CnmC^m_n来表示组合问题。例如:从10个里面取出9个,用C109C^9_{10}来表示。

【求解思路】
组合公式的推导是由排列公式去掉重复的部分而来的。
还是拿A109A^9_{10}来看,取出的9个数会有A99A^9_9种排序方式,但组合就是为了去掉重复的部分,因此
C109=A109A99=10!1!×9!C^9_{10} = \frac{A^9_{10}}{A^9_9} = \frac{10!}{1! \times 9!}

【求解公式】
Cnm=Anmm!=n!(nm)!m!C^m_n = \frac{A^m_n}{m!} = \frac{n!}{(n-m)!m!}

计算方法

  1. 分类计数法(加法原理)
  2. 分步计数法(乘法原理)

总结

排列与组合提供了一种方法,去计算出某件事情会有多少种可能的结果

2.概率论基本概念

  • 试验(Trial)
    1. 可重复进行
    2. 结果不止一个
    3. 实验前不明确哪个结果会发生
  • 样本空间 (sample space)
    可能出现的结果的一个集合,通常用S表示
  • 随机事件(Random event)
    样本空间的一个子集,也是一个集合。通常用A,B,C...表示
  • 基本事件(elementary/fundamental event)
    样本空间里的一个元素。
  • 必然事件(certain event)
  • 不可能事件(impossible event)
  • 完备事件组
    当A1、A2...这些随机事件两两之间没有交集,且它们的并集恰好等于样本空间,则称A1、A2...为一个完备事件组

事件的运算

交集(intersection set)、并集(union set)、补集、差集(difference set)四种。

  • 交集(ABA \cap B):既属于A事件、又属于B事件的元素的集合
  • 并集(ABA \cup B):在A事件中、或在B事件中的元素的集合
  • 补集(AA'):除了A事件中的元素,其他所有元素的集合
  • 差集(ABA - B):事件A中存在但不在事件B中的元素
  • 空集(\emptyset),一般用来形容A、B事件没有交集

事件发生的概率

P(A)P(A)表示A事件发生的概率。
P(Aˉ)P(\bar{A})P(A)P(A')表示A事件不发生的概率。
P(AB)P(AB)表示A事件以及B事件同时发生的概率。
P(BA)P(B|A)表示在A事件已发生的前提下,B事件发生的概率。

事件的独立性

若A、B事件满足:P(AB)=P(A)×P(B)P(AB) = P(A) \times P(B),则称A、B是互相独立的事件

【若A、B互相独立,可推导出以下公式】
P(B)=P(BA)P(B) = P(B|A)
P(BA)=P(BAˉ)P(B|A) = P(B|\bar{A})

3. 古典概型

一个随机试验E,它的基本事件有限个,且每个基本事件出现的概率相等。则把这类试验叫拉普拉斯试验,把这类概率模型称为古典概型。

【例子】

  1. 求投出点数为偶数的骰子的概率
  2. 从0~10的整数中选出3个,不含5的概率
  3. ...

【表达公式】
P(A)=ASP(A) = \frac{A}{S}
其中P(A)是指A事件发生的概率,S是样本空间(所有可能出现的结果的个数),A是一个随机事件(包含若干个基本事件)

4. 几何概型

无限个基本事件;每个基本事件出现的概率相等。因为一般通过画坐标轴来计算,因此也叫几何概型。

【例子】

  1. 时间
  2. 长度
  3. 面积

5. 联合概率(joint probability)

事件A、事件B同时发生的概率。用P(AB)P(AB)表示。

6. 条件概率(Conditional probability)

事件A发生的条件下,事件B发生的概率。

【表达公式】
可以用联合概率求得条件概率:
P(BA)=P(AB)P(A)P(B|A) = \frac{P(AB)}{P(A)}

【衍生公式】
(AB)=P(A)P(BA)=P(B)P(AB)(AB) = P(A)P(B|A) = P(B)P(A|B)

P(ABC)=P(A)P(BA)P(CAB)P(ABC)=P(A)P(B|A)P(C|AB)

【例子】

  1. 假设一批水果有100个,有10个西瓜,20个苹果,70个橙;其中有坏西瓜3个,坏苹果7个,坏橙10个。
    (1)顾客A买了一个水果,求该水果是坏西瓜的概率
    答:设顾客买的水果为西瓜为事件A,顾客买到坏水果为事件B,则要求P(AB) = 3 / 100 = 0.03
    (2)顾客买了一个西瓜,求该西瓜是坏西瓜的概率
    答:P(B|A) = 3 / 10 = 0.3 ,结果跟 P(AB)/P(A)=0.03/0.1=0.3P(AB)/P(A) = 0.03 / 0.1 = 0.3一样。

7. 全概率公式 & 贝叶斯公式

【全概率公式】
定义:如果事件B1、B2、B3…Bi构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有

P(A)=P(AB1)P(B1)+P(AB2)P(B2)+...+P(ABi)P(Bi)P(A)=P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_i)P(B_i)

【贝叶斯公式】
如果是两个事件A、B,则可以通过条件概率公式推导出贝叶斯公式:

P(AB)=P(BA)×P(A)P(B)P(A|B) = P(B|A) \times \frac{P(A)}{P(B)}

如果是多个事件,则可以通过全概率公式 + 条件概率公式推导出贝叶斯公式:

P(BiA)=P(ABi)P(A)=P(Bi)P(ABi)i=1nP(Bi)P(ABi)P(B_i|A) = \frac{P(AB_i)}{P(A)} = \frac{P(B_i) P(A|B_i)}{\sum_{i = 1}^{n}P(B_i)P(A|B_i)}

全概率公式、贝叶斯公式的应用

例题:某公司调查发现,有32%的顾客有收看牙膏广告。在收看的人中,有40%的人会购买牙膏;没有收看的人中,有12%的人会购买牙膏。
问:现随机选取一个消费者,发现该消费者已购买牙膏,计算这个人看过这个牙膏广告的概率。
答:

  1. 设事件A为“牙膏消费者看到了牙膏广告”
  2. 设事件B为“牙膏消费者购买了牙膏”
  3. 依题意,则有:
    P(A)=0.32P(A) = 0.32P(Aˉ)=0.68P(\bar{A}) = 0.68P(BA)=0.4P(B|A) = 0.4P(BAˉ)=0.12P(B|\bar{A}) = 0.12
  4. 根据全概率公式,有:
    P(B)=P(A)×P(BA)+P(Aˉ)×P(BAˉ)=0.32×0.4+0.68×0.12=0.2096P(B) = P(A) \times P(B|A) + P(\bar{A}) \times P(B|\bar{A}) = 0.32 \times 0.4 + 0.68 \times 0.12 = 0.2096
  5. 最后,根据贝叶斯公式,有:
    P(AB)=P(BA)×P(A)P(B)=0.4×0.320.2096=0.6106P(A|B) = P(B|A) \times \frac{P(A)}{P(B)} = 0.4 \times \frac{0.32}{0.2096} = 0.6106
    即已购买牙膏的消费者看过牙膏广告的概率为0.6106

8. 随机变量

跟随机事件一样,同样是为了研究事件发生的概率。
不同的是,随机变量将随机事件中的所有元素进行量化(用数字表示),从而更方便计算。

【抛硬币的结果】
随机事件(用集合描述):

A={正,反} A = \lbrace正,反\rbrace

随机变量(用函数描述):

X(e)={1,e=扔出正面0,e=扔出反面 X(e)= \begin{cases} 1,\quad e=扔出正面\\ 0, \quad e=扔出反面 \end{cases}

随机变量的取值:xk(k=1,2...)x_k(k=1,2...)
随机变量对应的概率分布(分布律):

  1. 图表法
    x12...3
    P(xk)P(x_k)0.10.2...0.05
  2. 公式枚举法 P(x1)=0.1,P(x2)=0.05...P(xk)=0.05P(x_1)=0.1,P(x_2)=0.05 ...P(x_k)=0.05

随机变量的特点

  1. 随机变量X=X(e)是一个单实值函数,即通过每个e求出的X都对应一个单值复数
  2. X(e)中,每个e的取值都对应一定的概率
  3. 试验前,可能知道X(e)的所有可能出现的结果,但不确定是哪一个

离散型&连续型

【离散型随机变量】
是指发生的结果(可能的取值)是有限个的,对应着古典概型
例子:抛硬币(正、反),生小孩(男、女)

【连续型随机变量】
是指发生的结果(可能的取值)是不可数的,对应着几何概型
例子:明天的温度、明天的降雨量

常见的离散型随机变量

【0-1分布】

只有两种结果,用0和1分别表示

分布律:P(X=0) = P,P(X=1) = 1-P

例题:生男孩的概率为0.6,求生女孩的概率是多少。
解题思路:

  1. 因为结果只有两种(生男孩、生女孩),符合0-1分布
  2. 先转换为随机变量

    X(e)={1,e=生男孩0,e=生女孩 X(e)= \begin{cases} 1,\quad e=生男孩\\ 0, \quad e=生女孩 \end{cases}

  3. 由题可知, P(1) = 0.6,因此根据分布律,可知P(0) = 1- 0.6 = 0.4,即生女孩概率为0.4

【二项分布(Binomial Distribution)】XB(n,p)X \sim B(n,p)

对于n重伯努利试验(试验结果要么A发生,要么A不发生),A发生的次数服从二项分布。

若随机变量满足二项分布,则用XB(n,p)X \sim B(n,p)表示。即A事件发生的概率为p,在n次试验中,A发生不同次数的概率分布。

分布律:
P(X=k)=Cnk×Pk×(1P)nk(k=0,1,2...n)P(X=k) =C^k_n \times P^k \times (1-P)^{n-k} \quad (k=0,1,2...n)

例题:抛圈圈礼物游戏,假设圈中的概率为0.2,求圈10次圈中5个礼物的概率

解题思路:
圈礼物游戏只有两种结果:圈中或者圈不中,因此若连续玩圈礼物游戏,圈中发生的次数会服从二项分布。

  1. 转换为随机变量

    X(e)={1,e=圈中0,e=圈不中 X(e)= \begin{cases} 1,\quad e=圈中\\ 0, \quad e=圈不中 \end{cases}

  2. p(e=1) + p(e=0) = 1 ,且p(e=1)=0.2
  3. 根据二项分布的分布律,我们可以列出圈10次(n=10)圈中不同个数(k)的概率
    圈中1个:P(X=1)=C101×0.21×0.89P(X=1) =C^1_{10} \times 0.2^1 \times 0.8^9
    圈中2个:P(X=2)=C102×0.22×0.88P(X=2) =C^2_{10} \times 0.2^2 \times 0.8^8
    ...
    圈中5个:P(X=5)=C105×0.25×0.85P(X=5) =C^5_{10} \times 0.2^5 \times 0.8^5

【泊松分布】Xπ(λ)X \sim \pi(\lambda)

泊松分布是通过二项分布推导所得,

泊松分布用Xπ(λ)X \sim \pi(\lambda)表示。λ\lambda代表单位时间内事件发生的平均次数。

分布律:
P(X=k)=λk×eλk!(λ>0,λ=0,1,2...)P(X=k) = \frac{\lambda ^k \times e^{-\lambda}}{k!} \quad (\lambda>0,\lambda=0,1,2...)

πpai,λlamda,λ=np\pi 读pai,\lambda读lamda,\lambda=np

泊松定理:假设X服从二项分布B(n,p),当n较大且p较小时,X近似服从泊松分布π=(np)\pi=(np)
即n较大且p较小时,有 P(X=k)=Cnk×Pk×(1P)nkλk×eλk!P(X=k) =C^k_n \times P^k \times (1-P)^{n-k} \approx \frac{\lambda ^k \times e^{-\lambda}}{k!}

例题:零件次品率为0.1%,那么1000个零件至少有两个次品的概率为多少?
解答:虽然服从二项分布,但因为n较大(1000)p较小(0.1%),因此我们可用泊松定理来计算。
X=次品的数量
p=次品概率
X ~ B(1000,0.1%) (X服从二项分布)
P(X2)P(X \geq 2)

P(X2)=1P(X=0)P(X=1)P(X \geq 2) = 1 - P(X=0) -P(X=1)

根据以下两条公式:
π(x=k)=λk×eλk!\pi(x=k) = \frac{\lambda ^k \times e^{-\lambda}}{k!}
λ=np=10000.001=1\lambda=np = 1000 * 0.001 = 1

P(x=0)=10×e10!P(x=0) = \frac{ 1 ^0 \times e^{-1}}{0!}
P(x=1)=11×e11!P(x=1) = \frac{ 1 ^1 \times e^{-1}}{1!}
于是
P(X2)0.2642P(X \geq 2) \approx 0.2642

【超几何分布】

例题:100个学生里,有60个男生,40个女生,取其中的10人。问:取10人中男生人数为K个的概率。

答: P(X=k)=C60kC4010kC10010P(X=k) = \frac{C_{60}^k C_{40}^{10-k}}{C_{100}^{10}}

概率分布函数

定义:研究一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,
称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞)

【离散型随机变量分布函数】

对于离散型随机变量,设x1,x2...,xnx_1,x_2...,x_n为变量X的取值,而p1,p2...,pnp_1,p_2...,p_n为对应上述取值的概率,则离散型随机变量X的概率分布为

F(x)=i=1npi F(x) = \sum_{i=1}^{n}p_{i}

也可以通过枚举的方式表示:

F(x)={0,x<10.1,1x<20.3,2x<30.6,3x<41,4x<4 F(x)= \begin{cases} 0,\quad x<1\\ 0.1, \quad 1\leq x<2\\ 0.3, \quad 2\leq x<3\\ 0.6, \quad 3\leq x<4\\ 1, \quad 4\leq x<4\\ \end{cases}

【连续型随机变量分布函数】

F(x)=xf(x)dx F(x) = \int_{-\infty}^x f(x) dx

其中,f(x)是随机变量X的概率密度函数。

概率密度函数

定义:用来描述一个随机变量ξ取某个值时的概率
y=f(x)y = f(x),其中x是随机变量的取值,y是概率。

【离散型随机变量密度函数】

对于离散型随机变量,设x1,x2...,xnx_1,x_2...,x_n为变量X的取值,而p1,p2...,pnp_1,p_2...,p_n为对应上述取值的概率,则离散型随机变量X的概率分布为

f(x)=p(x) f(x) = p(x)

也可以通过枚举的方式表示:

f(x)={0,x=00.1,x=10.2,x=20.3,x=30.4,x=4 f(x)= \begin{cases} 0,\quad x=0\\ 0.1, \quad x=1\\ 0.2, \quad x=2\\ 0.3, \quad x=3\\ 0.4, \quad x=4\\ \end{cases}

【连续型随机变量密度函数】

常见的连续型随机变量

【均匀分布】XU(a,b)X \sim U(a,b)

XU(a,b)X \sim U(a,b)表示随机变量X服从均匀分布。
均匀分布,即指连续型随机变量X在某一段区间中(比如a<x<b),得到哪个指的概率都是k(k为一个任意常量)。

概率密度函数:

f(x)={1ba,a<x<b0,其他 f(x)= \begin{cases} \frac{1}{b-a},\quad a<x<b\\ 0, \quad 其他 \end{cases}

概率分布函数:

F(x)={0,x<axaba,ax<b1,xb F(x)= \begin{cases} 0,\quad x<a\\ \frac{x-a}{b-a},\quad a \leq x<b\\ 1, \quad x \geq b \end{cases}

【指数分布】XE(λ)X \sim E(\lambda)

XE(λ)X \sim E(\lambda)表示随机变量X服从指数分布。

概率密度函数:

f(x)={λeλx,x>00,x<=0 f(x)= \begin{cases} \lambda e^{-\lambda x},\quad x> 0\\ 0, \quad x<=0 \end{cases}

概率分布函数:

F(x)={1eλx,x>00,x<=0 F(x)= \begin{cases} 1 - e^{-\lambda x},\quad x> 0\\ 0, \quad x<=0 \end{cases}

【正态分布】XN(μ,σ2)X \sim N(\mu,\sigma^2)

XN(μ,σ2)X \sim N(\mu,\sigma^2)表示随机变量X服从正态分布。
绝大多数随机事件都服从正态分布。如人类的身高分布、IQ高低分布。

概率密度函数: ϕ(x)=12πσe(xμ)22σ2\phi(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}

概率分布函数: Φ(x)=12πxe(tμ)22σ2dt\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt

其中,σ2\sigma^2(sigma方)表示(总体)方差, μ\mu(miu) 表示(总体)均值。
xμσ\frac{x-\mu}{\sigma} 称为标准z分数。z分数表示“X的某一个取值离均值有多少个标准差”。

Note

标准正态分布(又称为高斯分布、Z分布)

是指数学期望为0,方差为1的正态分布,”X服从标准正态分布“写作XN(0,1)X \sim N(0,1)
任意一个正态分布都可以通过标准化的变换(也称U变换Z分数公式)转换成标准正态分布

标准化公式

U=XμσU = \frac{X - \mu}{\sigma}UN(0,1)U \sim N(0,1)
新的随机变量一般称为U变量或者Z变量

标准正态分布公式

f(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

求随机变量函数的密度函数(重要)

【例题】
假设有随机变量X,以及随机变量函数Y=2X+2。
X的分布函数为F(x)=0.2x2,0<x<5F(x)=0.2x^2 , 0 < x < 5,求Y的密度函数。

分布函数法:

  1. F(y)=P(Y<=y)=P(2X+2<=y)=P(X<=(y2)/2)F(y) = P(Y<=y) = P(2X+2<=y) = P(X<=(y-2)/2)
    即当x取(y-2)/2时,概率跟y相等。
  2. x=(y2)/2x=(y-2)/2,代入F(x)F(x),得:
    F((y2)/2)=0.2(y2)2/4F((y-2)/2) = 0.2 * (y-2)^2 / 4
    对F(y)求导,即得Y的密度函数f(y)。

【总结】

  1. 根据随机变量函数(Y=2X+2),先将Y由因变量转为自变量(X=(Y-2)/2)
  2. 再放入X的分布函数,即可求得Y的分布函数;
  3. 最后对Y的分布函数求导,便可得到Y的密度函数。

多维随机变量

上面我们讲的都是一维随机变量,只研究事件的一种属性。

假设我们想同时研究人的身高和体重的分布,我们可以将身高定义为随机变量X,体重定义为随机变量Y;

则由它们构成的向量(X,Y),叫做二维随机变量,或者二维随机向量。

联合分布律

二维随机变量的分布律,可以用一个二维表格来表示。

X\Y567P(X=xi)
100.10.150.25
120.050.150.1
150.10.050.05
P(Y=yi)

比如第一行,第一列的0.1就表示:X=10,Y=5出现的概率为0.1,可写成P11=0.1P_{11}=0.1

多维随机变量的分布律又叫联合分布律

联合分布函数

就是指(X,Y)这个二维随机变量的分布函数,用F(X,Y)表示。

边缘分布

二维随机变量中的X单独的分布律或者Y单独的分布律,就叫二维随机变量的边缘分布

二维随机变量(X,Y)有2个边缘分布:P(X=xi) 和 P(Y=yi)

边缘分布P(X=x1)也可以写成P1.P_{1.},边缘分布P(Y=y2)也可以写成P.2P_{.2}

独立性

研究两个随机变量是否存在依赖关系。

当P(AB) = P(A) * P(B),则我们称随机变量A,B互相独立。

对于二维随机变量,就是联合分布函数满足 F(x,y) = F(x) * F(y)时,表示X,Y互相独立。

常见的二维分布

二维均匀分布

二维正态分布

二维随机变量函数的分布

一般就是已知随机变量X,Y的联合分布律,需要你求随机变量Z=f(x,y)的分布律。

例题:

已知X,Y的联合分布律如下。

X\Y123
11/501/5
21/51/51/5

求Z = X+Y的分布律

一维随机变量的特征

  • 观察数据的平均情况、平均值:数学期望
  • 观察数据的离散程度:方差

数学期望

数学期望,实质就是随机变量值的概率加权平均

离散型随机变量的数学期望的定义:

设随机变量X的分布律为P(X=xi)=pi(i=1,2,...)P(X = x_i) = p_i(i=1,2,...),若级数i=0xipi\sum_{i=0}^{\infty}x_i p_i绝对收敛,则称i=0xipi\sum_{i=0}^{\infty}x_i p_i为随机变量X的数学期望
记为E(X),即

E(X)=i=0xipi=x1p1+x2p2+...+xipi E(X) = \sum_{i=0}^{\infty}x_i p_i = x_1 p_1 + x_2 p_2 + ... + x_i p_i

连续型随机变量的数学期望的定义:

设随机变量X的概率密度为f(x),若积分+xf(x)dx\int_{- \infty}^{+ \infty}xf(x)dx绝对收敛
则称积分+xf(x)dx\int_{- \infty}^{+ \infty}xf(x)dx为X的数学期望,即

E(X)=+xf(x)dx E(X) = \int_{- \infty}^{+ \infty}xf(x)dx

什么是绝对收敛?

数学期望的性质
  • 设C为常数,则有E(C) = C
  • 设X为随机变量,C为常数,则有E(CX) = CE(X)
  • E(X+Y) = E(X) + E(Y)
  • E(aX+bY) = aE(X)+bE(Y)
  • 若X,Y相互独立,则有E(XY) = E(X)E(Y)
随机变量函数的数学期望

假设有离散型随机变量X,其分布律为P(X=xi)=pi,i=1,2...P(X=x_i) = p_i ,i=1,2...;有另一随机变量Y =g(x)
若级数i=1g(xi)pi\sum_{i=1}^{\infty}g(x_i) p_i绝对收敛,则称Y=g(x)的数学期望为:

E(Y)=i=1g(xi)pi E(Y)=\sum_{i=1}^{\infty}g(x_i) p_i

例子:

Y=x2Y=x^2149
X123
0.10.20.7

E(X)=0.11+0.22+0.33=1.4E(X) = 0.1*1 + 0.2*2 + 0.3*3 = 1.4
E(Y)=0.121+0.222+0.323=0.36E(Y) = 0.1^2*1 + 0.2^2*2 + 0.3^2*3 = 0.36

同理,假设有连续型随机变量X,其概率密度函数为以及随机变量Y=g(x);
则Y=g(x)的数学期望为:

E(Y)=+g(x)f(x)dx E(Y)=\sum_{- \infty}^{+ \infty}g(x) f(x)dx

方差

定义

设X是一个离散型随机变量,记D(X)为X的方差,则有:

D(X)=i=1(xiE(X))2pi=(x1E(X))2p1+(x2E(X))2p2+...+(xiE(X))2pi D(X) = \sum_{i=1}^{\infty}(x_i-E(X))^2 p_i = (x_1-E(X))^2 p_1 + (x_2-E(X))^2 p_2 + ... + (x_i-E(X))^2 p_i

实质就是偏差平方的加权平均,因此也可以表示成E{(X-E(X))^2},即求“每个X与数学期望的偏差的平方的数学期望”
根据数学期望的性质,简化后,方差可这样表示:

D(X)=E(X2)E(X)2 D(X) = E(X^2)-E(X)^2

性质
  • C为常数,则有D(C)=0
  • X为随机变量,C为常数,则D(CX)=C2D(X)D(CX)=C^2D(X)
  • X为随机变量,C为常数,则D(X+C)=D(X)
  • 若随机变量X,Y互相独立,则D(X+Y) = DX+DY

常见随机变量的数学期望和方差

分布参数分布律或概率密度函数数学期望方差
0-1分布pP(x=k)=pk(1p)1k(k=0,1)P(x=k)=p^k(1-p)^{1-k}(k=0,1)pp(1-p)
二项分布B(n,p)n,pP(x=k)=Cnkpk(1p)1kP(x=k)=C_n^kp^k(1-p)^{1-k}npnp(1-p)
泊松分布P(λ\lambda)λ\lambdaP(x=k)=λkeλk!P(x=k)=\frac{\lambda^k e^{-\lambda}}{k!}λ\lambdaλ\lambda
均匀分布U(a,b)a,b(a<b)f(x)=1ba,(a<x<b)f(x)=\frac{1}{b-a},(a<x<b)a+b2\frac{a+b}{2}(ba)212\frac{(b-a)^2}{12}
正态分布N(μ,σ2)N(\mu,\sigma^2)μ,σ2\mu,\sigma^2ϕ(x)=12πσe(xμ)22σ2\phi(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}μ\muσ\sigma
指数分布e(λ)e(\lambda)λ\lambda1λ\frac{1}{\lambda}1λ2\frac{1}{\lambda^2}

二维随机变量的特征

  • 研究二维随机变量(X,Y)中,X和Y的线性相关性:协方差

什么是线性相关?
对于随机变量X,Y,有Y=aX+b这样的关系,则称X,Y为线性相关

协方差

定义:设(X,Y)是二维随机变量,且E(X)E(X)E(Y)E(Y)都存在,如果E[(XE(X))(YE(Y))]E[(X-E(X))(Y-E(Y))]存在,则称其为随机变量X和Y的协方差。
记作Cov(X,Y)Cov(X,Y)。即

Cov(X,Y)=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y) Cov(X,Y) = E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y)

可以发现,协方差的求值公式与方差的非常像,可以联合一起记忆。

协方差为正,则表明X,Y正相关;
协方差为负,则表明X,Y负相关;

协方差的性质
  • Cov(X,Y) = Cov(Y,X)
  • Cov(X,Y+Z) = Cov(X,Y) + Cov(X,Z)
  • Cov(aX,bY) = abCov(X,Y)
  • Cov(a,X) = 0,a为任意常数
  • Cov(aX1+bX2,Y) = aCov(X1,Y) + bCov(X2,Y)
  • 如果X,Y相互独立,Cov(X,Y)=0
  • D(X+Y) = D(X)+D(Y)+2Cov(X,Y)

相关系数

定义:设(X,Y)是一个二维随机变量,且X,Y的方差都存在,且都不为零;
则称下面的公式为X与Y的相关系数,用ρxy\rho_{xy}表示:

ρxy=cov(X,Y)DXDY \rho_{xy} = \frac{cov(X,Y)}{\sqrt{DX}\sqrt{DY}}

相关系数跟协方差一样,是用来描述X,Y之间的相关性的;
只不过相关系数是对两个随机变量做了量纲的标准化
对X,Y进行量纲的标准化后,对新的随机变量X1X^1,Y1Y^1求出来的协方差,就是它们俩的相关系数

相关系数的性质
  • ρXY1|\rho_{XY}| \leq 1,当ρXY=0\rho_{XY} =0时,称X,Y不相关。ρXY|\rho_{XY}|越大,相关性越大。
  • 当X,Y不相关时,有
    ρXY=0Cov(X,Y)=0E(XY)=E(X)E(Y)D(X+Y)=D(X)+D(Y)\rho_{XY} = 0 \Longleftrightarrow Cov(X,Y)=0 \Longleftrightarrow E(XY)=E(X)E(Y) \Longleftrightarrow D(X+Y)=D(X)+D(Y)
  • 若随机变量X,Y相互独立则X与Y不线性相关;但反之不一定(可能是其他的非线性相关关系)。

大数定律

切比雪夫不等式

依概率收敛

大数定律

名称大数定律注释
切比雪夫大数定律
辛钦大数定律
伯努利大数定律

什么是独立同分布?

中心极限定理(重要)

名称中心极限定理
林德伯格-莱维中心极限定理
棣(li)莫弗-拉普拉斯中心定理

9. 数理统计

演绎法(deduction)

通过定理(一定正确的理论)推断出其他定理。主要应用的学科:数学

归纳法(induction)

通过大量的实验,总结出一个大概率正确的规律。主要应用的学科:物理、化学、生物

数理统计就是通过归纳法——通过大量的实验去总结出规律。

研究的问题类似:

  • 全球人类的身高分布、平均身高
  • 100w个产品的平均使用寿命

这些问题因为统计对象的数量实在太多,统计难度大,因此一般不会对所有对象进行实验(比如不会真的统计全球人的身高)
而是从中抽出一部分的统计对象(样本),对样本进行统计分析,得到的分析结果用来描述整体数据的情况。

抽样调查

抽样分布

什么是统计量

统计量是指某个随机变量的一个“函数”,它本身也是一个随机变量。

常见的统计量

名称公式定义
样本均值E(X)=i=0xipi=x1p1+x2p2+...+xipiE(X) = \sum_{i=0}^{\infty}x_i p_i = x_1 p_1 + x_2 p_2 + ... + x_i p_i定义见“数学期望”,反映数据的中心位置
样本方差D(X)=i=1(xiE(X))2piD(X) = \sum_{i=1}^{\infty}(x_i-E(X))^2 p_i定义见“方差”,反映总体分散情况
样本标准差D(X)\sqrt{D(X)}定义见“标准差”,反映总体分散情况
样本k阶原点矩μ=i=1nxkn\mu = \frac{\sum_{i=1}^{n}x^k}{n}也叫“原点动差”,1阶原点动差实质就是样本均值
样本k阶中心矩μ=i=1n(xxˉ)kn\mu = \frac{\sum_{i=1}^{n}(x-\bar{x})^k}{n}也叫“中心动差”,2阶中心动差实质就是方差

样品分布与抽样分布

比如收集100个人的身高,并列成以下表:

X1X2X3...X100
身高166165170...180

这是抽样后的样品分布,直接反映统计样本的未经处理、最直接的数据的分布情况;

抽样分布,则重复抽样N次,(重复从统计总体中抽取数量相同的样本),并研究其统计量的分布情况。

同样收集100个人的身高,重复收集3次,并计算每批次样本的均值、方差,最后总结成以下表格:

批次第一批第二批第三批
样本均值164169168
样本方差2069.4953204865

三大抽样分布

x2x^2(开方)分布
定义:设X1X_1,X2X_2,...,XnX_n相互独立且均来自总体XN(0,1)X \sim N(0,1)(标准正态分布),则称统计量

x2=X12+X22+...+Xn2 x^2 = X_1^2 + X_2^2 + ... + X_n^2

服从自由度为n的x2x^2分布,记为x2x2(n)x^2 \sim x^2(n)

Last Updated:
Contributors: dongyz8