B站视频:《概率论与数理统计》零基础精讲课|木叔主讲
概率论与数理统计研究什么?
- 研究事件会导致多少种可能出现的结果(排列与组合)
- 如何算出不同的结果发生的概率有多少(随机事件、古典概型、几何概型)
- 在结果A已发生的情况下,结果B发生的概率(条件概率、全概率、贝叶斯)
- 预测某件事10次里会出现5次A结果的概率(二项分布)
- 预测某件事在1小时内发生5次的概率(泊松分布)
- 预测2个新生儿出生的时间间隔(指数分布)
- 人类的身高分布(正态分布)
- 人类的平均身高(数学期望)
- 结果是否比较没有悬念(方差)
排列(Arrangement)问题:
【描述】
从N个里面取出M个组成一组,并且有序,会有多少种组法?
用Anm来表示排列问题。例如:从10个里面取出9个并排好序,用A109来表示。
【求解思路】
N个里面要取M个,
先取第一个,第一个有N种取法;
取第二个,有N-1种取法;(则取前2个有N*(N-1)种取法)
取第三个,有N-2种取法;(则取前3个有N*(N-1)(N-2)种取法)
...
取第M个,有N-M+1种取法;(则取前M个有N(N-1)*(N-2)...(N-M+1)种取法)
【求解公式】
Anm=n∗(n−1)∗(n−2)...(n−m+1)=(n−m)!n!
组合(Combination)问题:
【描述】
从N个里面取出M个组成一组,不考虑顺序,会有多少种组法?
用Cnm来表示组合问题。例如:从10个里面取出9个,用C109来表示。
【求解思路】
组合公式的推导是由排列公式去掉重复的部分而来的。
还是拿A109来看,取出的9个数会有A99种排序方式,但组合就是为了去掉重复的部分,因此
C109=A99A109=1!×9!10!
【求解公式】
Cnm=m!Anm=(n−m)!m!n!
- 分类计数法(加法原理)
- 分步计数法(乘法原理)
排列与组合提供了一种方法,去计算出某件事情会有多少种可能的结果。
- 试验(Trial)
- 可重复进行
- 结果不止一个
- 实验前不明确哪个结果会发生
- 样本空间 (sample space)
可能出现的结果的一个集合,通常用S表示 - 随机事件(Random event)
样本空间的一个子集,也是一个集合。通常用A,B,C...表示 - 基本事件(elementary/fundamental event)
样本空间里的一个元素。 - 必然事件(certain event)
- 不可能事件(impossible event)
- 完备事件组
当A1、A2...这些随机事件两两之间没有交集,且它们的并集恰好等于样本空间,则称A1、A2...为一个完备事件组
交集(intersection set)、并集(union set)、补集、差集(difference set)四种。
- 交集(A∩B):既属于A事件、又属于B事件的元素的集合
- 并集(A∪B):在A事件中、或在B事件中的元素的集合
- 补集(A′):除了A事件中的元素,其他所有元素的集合
- 差集(A−B):事件A中存在但不在事件B中的元素
- 空集(∅),一般用来形容A、B事件没有交集
用P(A)表示A事件发生的概率。
用P(Aˉ) 或 P(A′)表示A事件不发生的概率。
用P(AB)表示A事件以及B事件同时发生的概率。
用P(B∣A)表示在A事件已发生的前提下,B事件发生的概率。
若A、B事件满足:P(AB)=P(A)×P(B),则称A、B是互相独立的事件
【若A、B互相独立,可推导出以下公式】
P(B)=P(B∣A)
P(B∣A)=P(B∣Aˉ)
一个随机试验E,它的基本事件有限个,且每个基本事件出现的概率相等。则把这类试验叫拉普拉斯试验,把这类概率模型称为古典概型。
【例子】
- 求投出点数为偶数的骰子的概率
- 从0~10的整数中选出3个,不含5的概率
- ...
【表达公式】
P(A)=SA
其中P(A)是指A事件发生的概率,S是样本空间(所有可能出现的结果的个数),A是一个随机事件(包含若干个基本事件)
无限个基本事件;每个基本事件出现的概率相等。因为一般通过画坐标轴来计算,因此也叫几何概型。
【例子】
- 时间
- 长度
- 面积
事件A、事件B同时发生的概率。用P(AB)表示。
事件A发生的条件下,事件B发生的概率。
【表达公式】
可以用联合概率求得条件概率:
P(B∣A)=P(A)P(AB)
【衍生公式】
(AB)=P(A)P(B∣A)=P(B)P(A∣B)
P(ABC)=P(A)P(B∣A)P(C∣AB)
【例子】
- 假设一批水果有100个,有10个西瓜,20个苹果,70个橙;其中有坏西瓜3个,坏苹果7个,坏橙10个。
(1)顾客A买了一个水果,求该水果是坏西瓜的概率
答:设顾客买的水果为西瓜为事件A,顾客买到坏水果为事件B,则要求P(AB) = 3 / 100 = 0.03
(2)顾客买了一个西瓜,求该西瓜是坏西瓜的概率
答:P(B|A) = 3 / 10 = 0.3 ,结果跟 P(AB)/P(A)=0.03/0.1=0.3一样。
【全概率公式】
定义:如果事件B1、B2、B3…Bi构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bi)P(Bi)
【贝叶斯公式】
如果是两个事件A、B,则可以通过条件概率公式推导出贝叶斯公式:
P(A∣B)=P(B∣A)×P(B)P(A)
如果是多个事件,则可以通过全概率公式 + 条件概率公式推导出贝叶斯公式:
P(Bi∣A)=P(A)P(ABi)=∑i=1nP(Bi)P(A∣Bi)P(Bi)P(A∣Bi)
【全概率公式、贝叶斯公式的应用】
例题:某公司调查发现,有32%的顾客有收看牙膏广告。在收看的人中,有40%的人会购买牙膏;没有收看的人中,有12%的人会购买牙膏。
问:现随机选取一个消费者,发现该消费者已购买牙膏,计算这个人看过这个牙膏广告的概率。
答:
- 设事件A为“牙膏消费者看到了牙膏广告”
- 设事件B为“牙膏消费者购买了牙膏”
- 依题意,则有:
P(A)=0.32,P(Aˉ)=0.68, P(B∣A)=0.4,P(B∣Aˉ)=0.12 - 根据全概率公式,有:
P(B)=P(A)×P(B∣A)+P(Aˉ)×P(B∣Aˉ)=0.32×0.4+0.68×0.12=0.2096 - 最后,根据贝叶斯公式,有:
P(A∣B)=P(B∣A)×P(B)P(A)=0.4×0.20960.32=0.6106
即已购买牙膏的消费者看过牙膏广告的概率为0.6106
跟随机事件一样,同样是为了研究事件发生的概率。
不同的是,随机变量将随机事件中的所有元素进行量化(用数字表示),从而更方便计算。
【抛硬币的结果】
随机事件(用集合描述):
A={正,反}
随机变量(用函数描述):
X(e)={1,e=扔出正面0,e=扔出反面
随机变量的取值:xk(k=1,2...)
随机变量对应的概率分布(分布律):
- 图表法
x | 1 | 2 | ... | 3 |
---|
P(xk) | 0.1 | 0.2 | ... | 0.05 |
- 公式枚举法 P(x1)=0.1,P(x2)=0.05...P(xk)=0.05
- 随机变量X=X(e)是一个单实值函数,即通过每个e求出的X都对应一个单值复数
- X(e)中,每个e的取值都对应一定的概率
- 试验前,可能知道X(e)的所有可能出现的结果,但不确定是哪一个
【离散型随机变量】
是指发生的结果(可能的取值)是有限个的,对应着古典概型
例子:抛硬币(正、反),生小孩(男、女)
【连续型随机变量】
是指发生的结果(可能的取值)是不可数的,对应着几何概型
例子:明天的温度、明天的降雨量
只有两种结果,用0和1分别表示
分布律:P(X=0) = P,P(X=1) = 1-P
例题:生男孩的概率为0.6,求生女孩的概率是多少。
解题思路:
- 因为结果只有两种(生男孩、生女孩),符合0-1分布
- 先转换为随机变量
X(e)={1,e=生男孩0,e=生女孩
- 由题可知, P(1) = 0.6,因此根据分布律,可知P(0) = 1- 0.6 = 0.4,即生女孩概率为0.4
对于n重伯努利试验(试验结果要么A发生,要么A不发生),A发生的次数服从二项分布。
若随机变量满足二项分布,则用X∼B(n,p)表示。即A事件发生的概率为p,在n次试验中,A发生不同次数的概率分布。
分布律:
P(X=k)=Cnk×Pk×(1−P)n−k(k=0,1,2...n)
例题:抛圈圈礼物游戏,假设圈中的概率为0.2,求圈10次圈中5个礼物的概率
解题思路:
圈礼物游戏只有两种结果:圈中或者圈不中,因此若连续玩圈礼物游戏,圈中发生的次数会服从二项分布。
- 转换为随机变量
X(e)={1,e=圈中0,e=圈不中
- p(e=1) + p(e=0) = 1 ,且p(e=1)=0.2
- 根据二项分布的分布律,我们可以列出圈10次(n=10)圈中不同个数(k)的概率
圈中1个:P(X=1)=C101×0.21×0.89
圈中2个:P(X=2)=C102×0.22×0.88
...
圈中5个:P(X=5)=C105×0.25×0.85
泊松分布是通过二项分布推导所得,
泊松分布用X∼π(λ)表示。λ代表单位时间内事件发生的平均次数。
分布律:
P(X=k)=k!λk×e−λ(λ>0,λ=0,1,2...)
π读pai,λ读lamda,λ=np
泊松定理:假设X服从二项分布B(n,p),当n较大且p较小时,X近似服从泊松分布π=(np)
即n较大且p较小时,有 P(X=k)=Cnk×Pk×(1−P)n−k≈k!λk×e−λ
例题:零件次品率为0.1%,那么1000个零件至少有两个次品的概率为多少?
解答:虽然服从二项分布,但因为n较大(1000)p较小(0.1%),因此我们可用泊松定理来计算。
X=次品的数量
p=次品概率
X ~ B(1000,0.1%) (X服从二项分布)
求P(X≥2)
P(X≥2)=1−P(X=0)−P(X=1)
根据以下两条公式:
π(x=k)=k!λk×e−λ
λ=np=1000∗0.001=1
有
P(x=0)=0!10×e−1
P(x=1)=1!11×e−1
于是
P(X≥2)≈0.2642
例题:100个学生里,有60个男生,40个女生,取其中的10人。问:取10人中男生人数为K个的概率。
答: P(X=k)=C10010C60kC4010−k
定义:研究一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,
称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞)
对于离散型随机变量,设x1,x2...,xn为变量X的取值,而p1,p2...,pn为对应上述取值的概率,则离散型随机变量X的概率分布为
F(x)=i=1∑npi
也可以通过枚举的方式表示:
F(x)=⎩⎨⎧0,x<10.1,1≤x<20.3,2≤x<30.6,3≤x<41,4≤x<4
F(x)=∫−∞xf(x)dx
其中,f(x)是随机变量X的概率密度函数。
定义:用来描述一个随机变量ξ取某个值时的概率
y=f(x),其中x是随机变量的取值,y是概率。
对于离散型随机变量,设x1,x2...,xn为变量X的取值,而p1,p2...,pn为对应上述取值的概率,则离散型随机变量X的概率分布为
f(x)=p(x)
也可以通过枚举的方式表示:
f(x)=⎩⎨⎧0,x=00.1,x=10.2,x=20.3,x=30.4,x=4
略
用X∼U(a,b)表示随机变量X服从均匀分布。
均匀分布,即指连续型随机变量X在某一段区间中(比如a<x<b),得到哪个指的概率都是k(k为一个任意常量)。
概率密度函数:
f(x)={b−a1,a<x<b0,其他
概率分布函数:
F(x)=⎩⎨⎧0,x<ab−ax−a,a≤x<b1,x≥b
用X∼E(λ)表示随机变量X服从指数分布。
概率密度函数:
f(x)={λe−λx,x>00,x<=0
概率分布函数:
F(x)={1−e−λx,x>00,x<=0
用X∼N(μ,σ2)表示随机变量X服从正态分布。
绝大多数随机事件都服从正态分布。如人类的身高分布、IQ高低分布。
概率密度函数: ϕ(x)=2πσ1e−2σ2(x−μ)2
概率分布函数: Φ(x)=2π1∫−∞xe−2σ2(t−μ)2dt
其中,σ2(sigma方)表示(总体)方差, μ(miu) 表示(总体)均值。
σx−μ 称为标准z分数。z分数表示“X的某一个取值离均值有多少个标准差”。
Note
标准正态分布(又称为高斯分布、Z分布)
是指数学期望为0,方差为1的正态分布,”X服从标准正态分布“写作X∼N(0,1)
任意一个正态分布都可以通过标准化的变换(也称U变换、Z分数公式)转换成标准正态分布
标准化公式
U=σX−μ,U∼N(0,1)
新的随机变量一般称为U变量或者Z变量
标准正态分布公式
f(x)=σ2π1e−2σ2(x−μ)2
【例题】
假设有随机变量X,以及随机变量函数Y=2X+2。
X的分布函数为F(x)=0.2x2,0<x<5,求Y的密度函数。
分布函数法:
- F(y)=P(Y<=y)=P(2X+2<=y)=P(X<=(y−2)/2)
即当x取(y-2)/2时,概率跟y相等。 - 将x=(y−2)/2,代入F(x),得:
F((y−2)/2)=0.2∗(y−2)2/4
对F(y)求导,即得Y的密度函数f(y)。
【总结】
- 根据随机变量函数(Y=2X+2),先将Y由因变量转为自变量(X=(Y-2)/2)
- 再放入X的分布函数,即可求得Y的分布函数;
- 最后对Y的分布函数求导,便可得到Y的密度函数。
上面我们讲的都是一维随机变量,只研究事件的一种属性。
假设我们想同时研究人的身高和体重的分布,我们可以将身高定义为随机变量X,体重定义为随机变量Y;
则由它们构成的向量(X,Y),叫做二维随机变量,或者二维随机向量。
二维随机变量的分布律,可以用一个二维表格来表示。
X\Y | 5 | 6 | 7 | P(X=xi) |
---|
10 | 0.1 | 0.15 | 0.25 | |
12 | 0.05 | 0.15 | 0.1 | |
15 | 0.1 | 0.05 | 0.05 | |
P(Y=yi) | | | | |
比如第一行,第一列的0.1就表示:X=10,Y=5出现的概率为0.1,可写成P11=0.1。
多维随机变量的分布律又叫联合分布律。
就是指(X,Y)这个二维随机变量的分布函数,用F(X,Y)表示。
二维随机变量中的X单独的分布律或者Y单独的分布律,就叫二维随机变量的边缘分布。
二维随机变量(X,Y)有2个边缘分布:P(X=xi) 和 P(Y=yi)
边缘分布P(X=x1)也可以写成P1.,边缘分布P(Y=y2)也可以写成P.2
研究两个随机变量是否存在依赖关系。
当P(AB) = P(A) * P(B),则我们称随机变量A,B互相独立。
对于二维随机变量,就是联合分布函数满足 F(x,y) = F(x) * F(y)时,表示X,Y互相独立。
略
略
一般就是已知随机变量X,Y的联合分布律,需要你求随机变量Z=f(x,y)的分布律。
例题:
已知X,Y的联合分布律如下。
求Z = X+Y的分布律
- 观察数据的平均情况、平均值:数学期望
- 观察数据的离散程度:方差
数学期望,实质就是随机变量值的概率加权平均
设随机变量X的分布律为P(X=xi)=pi(i=1,2,...),若级数∑i=0∞xipi绝对收敛,则称∑i=0∞xipi为随机变量X的数学期望
记为E(X),即
E(X)=i=0∑∞xipi=x1p1+x2p2+...+xipi
设随机变量X的概率密度为f(x),若积分∫−∞+∞xf(x)dx绝对收敛
则称积分∫−∞+∞xf(x)dx为X的数学期望,即
E(X)=∫−∞+∞xf(x)dx
什么是绝对收敛?
- 设C为常数,则有E(C) = C
- 设X为随机变量,C为常数,则有E(CX) = CE(X)
- E(X+Y) = E(X) + E(Y)
- E(aX+bY) = aE(X)+bE(Y)
- 若X,Y相互独立,则有E(XY) = E(X)E(Y)
假设有离散型随机变量X,其分布律为P(X=xi)=pi,i=1,2...;有另一随机变量Y =g(x)
若级数∑i=1∞g(xi)pi绝对收敛,则称Y=g(x)的数学期望为:
E(Y)=i=1∑∞g(xi)pi
例子:
Y=x2 | 1 | 4 | 9 |
---|
X | 1 | 2 | 3 |
| 0.1 | 0.2 | 0.7 |
E(X)=0.1∗1+0.2∗2+0.3∗3=1.4
E(Y)=0.12∗1+0.22∗2+0.32∗3=0.36
同理,假设有连续型随机变量X,其概率密度函数为以及随机变量Y=g(x);
则Y=g(x)的数学期望为:
E(Y)=−∞∑+∞g(x)f(x)dx
设X是一个离散型随机变量,记D(X)为X的方差,则有:
D(X)=i=1∑∞(xi−E(X))2pi=(x1−E(X))2p1+(x2−E(X))2p2+...+(xi−E(X))2pi
实质就是偏差平方的加权平均,因此也可以表示成E{(X-E(X))^2},即求“每个X与数学期望的偏差的平方的数学期望”
根据数学期望的性质,简化后,方差可这样表示:
D(X)=E(X2)−E(X)2
- C为常数,则有D(C)=0
- X为随机变量,C为常数,则D(CX)=C2D(X)
- X为随机变量,C为常数,则D(X+C)=D(X)
- 若随机变量X,Y互相独立,则D(X+Y) = DX+DY
分布 | 参数 | 分布律或概率密度函数 | 数学期望 | 方差 |
---|
0-1分布 | p | P(x=k)=pk(1−p)1−k(k=0,1) | p | p(1-p) |
二项分布B(n,p) | n,p | P(x=k)=Cnkpk(1−p)1−k | np | np(1-p) |
泊松分布P(λ) | λ | P(x=k)=k!λke−λ | λ | λ |
均匀分布U(a,b) | a,b(a<b) | f(x)=b−a1,(a<x<b) | 2a+b | 12(b−a)2 |
正态分布N(μ,σ2) | μ,σ2 | ϕ(x)=2πσ1e−2σ2(x−μ)2 | μ | σ |
指数分布e(λ) | λ | | λ1 | λ21 |
- 研究二维随机变量(X,Y)中,X和Y的线性相关性:协方差
什么是线性相关?
对于随机变量X,Y,有Y=aX+b这样的关系,则称X,Y为线性相关
定义:设(X,Y)是二维随机变量,且E(X)和E(Y)都存在,如果E[(X−E(X))(Y−E(Y))]存在,则称其为随机变量X和Y的协方差。
记作Cov(X,Y)。即
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
可以发现,协方差的求值公式与方差的非常像,可以联合一起记忆。
协方差为正,则表明X,Y正相关;
协方差为负,则表明X,Y负相关;
- Cov(X,Y) = Cov(Y,X)
- Cov(X,Y+Z) = Cov(X,Y) + Cov(X,Z)
- Cov(aX,bY) = abCov(X,Y)
- Cov(a,X) = 0,a为任意常数
- Cov(aX1+bX2,Y) = aCov(X1,Y) + bCov(X2,Y)
- 如果X,Y相互独立,Cov(X,Y)=0
- D(X+Y) = D(X)+D(Y)+2Cov(X,Y)
定义:设(X,Y)是一个二维随机变量,且X,Y的方差都存在,且都不为零;
则称下面的公式为X与Y的相关系数,用ρxy表示:
ρxy=DXDYcov(X,Y)
相关系数跟协方差一样,是用来描述X,Y之间的相关性的;
只不过相关系数是对两个随机变量做了量纲的标准化。
对X,Y进行量纲的标准化后,对新的随机变量X1,Y1求出来的协方差,就是它们俩的相关系数。
- ∣ρXY∣≤1,当ρXY=0时,称X,Y不相关。∣ρXY∣越大,相关性越大。
- 当X,Y不相关时,有
ρXY=0⟺Cov(X,Y)=0⟺E(XY)=E(X)E(Y)⟺D(X+Y)=D(X)+D(Y) - 若随机变量X,Y相互独立则X与Y不线性相关;但反之不一定(可能是其他的非线性相关关系)。
略
略
名称 | 大数定律 | 注释 |
---|
切比雪夫大数定律 | | |
辛钦大数定律 | | |
伯努利大数定律 | | |
什么是独立同分布?
名称 | 中心极限定理 |
---|
林德伯格-莱维中心极限定理 | |
棣(li)莫弗-拉普拉斯中心定理 | |
演绎法(deduction)
通过定理(一定正确的理论)推断出其他定理。主要应用的学科:数学
归纳法(induction)
通过大量的实验,总结出一个大概率正确的规律。主要应用的学科:物理、化学、生物
数理统计就是通过归纳法——通过大量的实验去总结出规律。
研究的问题类似:
- 全球人类的身高分布、平均身高
- 100w个产品的平均使用寿命
这些问题因为统计对象的数量实在太多,统计难度大,因此一般不会对所有对象进行实验(比如不会真的统计全球人的身高)
而是从中抽出一部分的统计对象(样本),对样本进行统计分析,得到的分析结果用来描述整体数据的情况。
略
统计量是指某个随机变量的一个“函数”,它本身也是一个随机变量。
名称 | 公式 | 定义 |
---|
样本均值 | E(X)=∑i=0∞xipi=x1p1+x2p2+...+xipi | 定义见“数学期望”,反映数据的中心位置 |
样本方差 | D(X)=∑i=1∞(xi−E(X))2pi | 定义见“方差”,反映总体分散情况 |
样本标准差 | D(X) | 定义见“标准差”,反映总体分散情况 |
样本k阶原点矩 | μ=n∑i=1nxk | 也叫“原点动差”,1阶原点动差实质就是样本均值 |
样本k阶中心矩 | μ=n∑i=1n(x−xˉ)k | 也叫“中心动差”,2阶中心动差实质就是方差 |
比如收集100个人的身高,并列成以下表:
人 | X1 | X2 | X3 | ... | X100 |
---|
身高 | 166 | 165 | 170 | ... | 180 |
这是抽样后的样品分布,直接反映统计样本的未经处理、最直接的数据的分布情况;
而抽样分布,则重复抽样N次,(重复从统计总体中抽取数量相同的样本),并研究其统计量的分布情况。
同样收集100个人的身高,重复收集3次,并计算每批次样本的均值、方差,最后总结成以下表格:
批次 | 第一批 | 第二批 | 第三批 |
---|
样本均值 | 164 | 169 | 168 |
样本方差 | 2069.49 | 5320 | 4865 |
x2(开方)分布
定义:设X1,X2,...,Xn相互独立且均来自总体X∼N(0,1)(标准正态分布),则称统计量
x2=X12+X22+...+Xn2
服从自由度为n的x2分布,记为x2∼x2(n)