概率论与数理统计(probability theory and mathematical statistics)
参考
B站视频:《概率论与数理统计》零基础精讲课|木叔主讲
0.概览
概率论与数理统计研究什么?
- 研究事件会导致多少种可能出现的结果(排列与组合)
- 如何算出不同的结果发生的概率有多少(随机事件、古典概型、几何概型)
- 在结果A已发生的情况下,结果B发生的概率(条件概率、全概率、贝叶斯)
- 预测某件事10次里会出现5次A结果的概率(二项分布)
- 预测某件事在1小时内发生5次的概率(泊松分布)
- 预测2个新生儿出生的时间间隔(指数分布)
- 人类的身高分布(正态分布)
- 人类的平均身高(数学期望)
- 结果是否比较没有悬念(方差)
1.排列与组合问题
排列(Arrangement)问题:
【描述】
从N个里面取出M个组成一组,并且有序,会有多少种组法?
用
【求解思路】
N个里面要取M个,
先取第一个,第一个有N种取法;
取第二个,有N-1种取法;(则取前2个有N*(N-1)种取法)
取第三个,有N-2种取法;(则取前3个有N*(N-1)(N-2)种取法)
...
取第M个,有N-M+1种取法;(则取前M个有N(N-1)*(N-2)...(N-M+1)种取法)
【求解公式】
组合(Combination)问题:
【描述】
从N个里面取出M个组成一组,不考虑顺序,会有多少种组法?
用
【求解思路】
组合公式的推导是由排列公式去掉重复的部分而来的。
还是拿
【求解公式】
计算方法
- 分类计数法(加法原理)
- 分步计数法(乘法原理)
总结
排列与组合提供了一种方法,去计算出某件事情会有多少种可能的结果。
2.概率论基本概念
- 试验(Trial)
- 可重复进行
- 结果不止一个
- 实验前不明确哪个结果会发生
- 样本空间 (sample space) 可能出现的结果的一个集合,通常用S表示
- 随机事件(Random event)
样本空间的一个子集,也是一个集合。通常用A,B,C...表示 - 基本事件(elementary/fundamental event)
样本空间里的一个元素。 - 必然事件(certain event)
- 不可能事件(impossible event)
- 完备事件组
当A1、A2...这些随机事件两两之间没有交集,且它们的并集恰好等于样本空间,则称A1、A2...为一个完备事件组
事件的运算
交集(intersection set)、并集(union set)、补集、差集(difference set)四种。
- 交集(
):既属于A事件、又属于B事件的元素的集合 - 并集(
):在A事件中、或在B事件中的元素的集合 - 补集(
):除了A事件中的元素,其他所有元素的集合 - 差集(
):事件A中存在但不在事件B中的元素 - 空集(
),一般用来形容A、B事件没有交集
事件发生的概率
用
用
用
用
事件的独立性
若A、B事件满足:
【若A、B互相独立,可推导出以下公式】
3. 古典概型
一个随机试验E,它的基本事件有限个,且每个基本事件出现的概率相等。则把这类试验叫拉普拉斯试验,把这类概率模型称为古典概型。
【例子】
- 求投出点数为偶数的骰子的概率
- 从0~10的整数中选出3个,不含5的概率
- ...
【表达公式】
其中P(A)是指A事件发生的概率,S是样本空间(所有可能出现的结果的个数),A是一个随机事件(包含若干个基本事件)
4. 几何概型
无限个基本事件;每个基本事件出现的概率相等。因为一般通过画坐标轴来计算,因此也叫几何概型。
【例子】
- 时间
- 长度
- 面积
5. 联合概率(joint probability)
事件A、事件B同时发生的概率。用
6. 条件概率(Conditional probability)
事件A发生的条件下,事件B发生的概率。
【表达公式】
可以用联合概率求得条件概率:
【衍生公式】
【例子】
- 假设一批水果有100个,有10个西瓜,20个苹果,70个橙;其中有坏西瓜3个,坏苹果7个,坏橙10个。 (1)顾客A买了一个水果,求该水果是坏西瓜的概率
答:设顾客买的水果为西瓜为事件A,顾客买到坏水果为事件B,则要求P(AB) = 3 / 100 = 0.03 (2)顾客买了一个西瓜,求该西瓜是坏西瓜的概率 答:P(B|A) = 3 / 10 = 0.3 ,结果跟 一样。
7. 全概率公式 & 贝叶斯公式
【全概率公式】
定义:如果事件B1、B2、B3…Bi构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有
【贝叶斯公式】
如果是两个事件A、B,则可以通过条件概率公式推导出贝叶斯公式:
如果是多个事件,则可以通过全概率公式 + 条件概率公式推导出贝叶斯公式:
【全概率公式、贝叶斯公式的应用】
例题:某公司调查发现,有32%的顾客有收看牙膏广告。在收看的人中,有40%的人会购买牙膏;没有收看的人中,有12%的人会购买牙膏。
问:现随机选取一个消费者,发现该消费者已购买牙膏,计算这个人看过这个牙膏广告的概率。
答:
- 设事件A为“牙膏消费者看到了牙膏广告”
- 设事件B为“牙膏消费者购买了牙膏”
- 依题意,则有:
, , , - 根据全概率公式,有:
- 最后,根据贝叶斯公式,有:
即已购买牙膏的消费者看过牙膏广告的概率为0.6106
8. 随机变量
跟随机事件一样,同样是为了研究事件发生的概率。
不同的是,随机变量将随机事件中的所有元素进行量化(用数字表示),从而更方便计算。
【抛硬币的结果】
随机事件(用集合描述):
随机变量(用函数描述):
随机变量的取值:
随机变量对应的概率分布(分布律):
- 图表法
x 1 2 ... 3 0.1 0.2 ... 0.05 - 公式枚举法
随机变量的特点
- 随机变量X=X(e)是一个单实值函数,即通过每个e求出的X都对应一个单值复数
- X(e)中,每个e的取值都对应一定的概率
- 试验前,可能知道X(e)的所有可能出现的结果,但不确定是哪一个
离散型&连续型
【离散型随机变量】
是指发生的结果(可能的取值)是有限个的,对应着古典概型
例子:抛硬币(正、反),生小孩(男、女)
【连续型随机变量】
是指发生的结果(可能的取值)是不可数的,对应着几何概型
例子:明天的温度、明天的降雨量
常见的离散型随机变量
【0-1分布】
只有两种结果,用0和1分别表示
分布律:P(X=0) = P,P(X=1) = 1-P
例题:生男孩的概率为0.6,求生女孩的概率是多少。
解题思路:
- 因为结果只有两种(生男孩、生女孩),符合0-1分布
- 先转换为随机变量
- 由题可知, P(1) = 0.6,因此根据分布律,可知P(0) = 1- 0.6 = 0.4,即生女孩概率为0.4
【二项分布(Binomial Distribution)】
对于n重伯努利试验(试验结果要么A发生,要么A不发生),A发生的次数服从二项分布。
若随机变量满足二项分布,则用
分布律:
例题:抛圈圈礼物游戏,假设圈中的概率为0.2,求圈10次圈中5个礼物的概率
解题思路:
圈礼物游戏只有两种结果:圈中或者圈不中,因此若连续玩圈礼物游戏,圈中发生的次数会服从二项分布。
- 转换为随机变量
- p(e=1) + p(e=0) = 1 ,且p(e=1)=0.2
- 根据二项分布的分布律,我们可以列出圈10次(n=10)圈中不同个数(k)的概率
圈中1个:
圈中2个:
...
圈中5个:
【泊松分布】
泊松分布是通过二项分布推导所得,
泊松分布用
分布律:
泊松定理:假设X服从二项分布B(n,p),当n较大且p较小时,X近似服从泊松分布
即n较大且p较小时,有
例题:零件次品率为0.1%,那么1000个零件至少有两个次品的概率为多少?
解答:虽然服从二项分布,但因为n较大(1000)p较小(0.1%),因此我们可用泊松定理来计算。
X=次品的数量
p=次品概率
X ~ B(1000,0.1%) (X服从二项分布)
求
根据以下两条公式:
有
于是
【超几何分布】
例题:100个学生里,有60个男生,40个女生,取其中的10人。问:取10人中男生人数为K个的概率。
答:
概率分布函数
定义:研究一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,
称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞)
【离散型随机变量分布函数】
对于离散型随机变量,设
也可以通过枚举的方式表示:
【连续型随机变量分布函数】
其中,f(x)是随机变量X的概率密度函数。
概率密度函数
定义:用来描述一个随机变量ξ取某个值时的概率
【离散型随机变量密度函数】
对于离散型随机变量,设
也可以通过枚举的方式表示:
【连续型随机变量密度函数】
略
常见的连续型随机变量
【均匀分布】
用
均匀分布,即指连续型随机变量X在某一段区间中(比如a<x<b),得到哪个指的概率都是k(k为一个任意常量)。
概率密度函数:
概率分布函数:
【指数分布】
用
概率密度函数:
概率分布函数:
【正态分布】
用
绝大多数随机事件都服从正态分布。如人类的身高分布、IQ高低分布。
概率密度函数:
概率分布函数:
其中,
Note
标准正态分布(又称为高斯分布、Z分布)
是指数学期望为0,方差为1的正态分布,”X服从标准正态分布“写作
任意一个正态分布都可以通过标准化的变换(也称U变换、Z分数公式)转换成标准正态分布
标准化公式
标准正态分布公式
求随机变量函数的密度函数(重要)
【例题】
假设有随机变量X,以及随机变量函数Y=2X+2。
X的分布函数为
分布函数法:
即当x取(y-2)/2时,概率跟y相等。- 将
,代入 ,得: 对F(y)求导,即得Y的密度函数f(y)。
【总结】
- 根据随机变量函数(Y=2X+2),先将Y由因变量转为自变量(X=(Y-2)/2)
- 再放入X的分布函数,即可求得Y的分布函数;
- 最后对Y的分布函数求导,便可得到Y的密度函数。
多维随机变量
上面我们讲的都是一维随机变量,只研究事件的一种属性。
假设我们想同时研究人的身高和体重的分布,我们可以将身高定义为随机变量X,体重定义为随机变量Y;
则由它们构成的向量(X,Y),叫做二维随机变量,或者二维随机向量。
联合分布律
二维随机变量的分布律,可以用一个二维表格来表示。
X\Y | 5 | 6 | 7 | P(X=xi) |
---|---|---|---|---|
10 | 0.1 | 0.15 | 0.25 | |
12 | 0.05 | 0.15 | 0.1 | |
15 | 0.1 | 0.05 | 0.05 | |
P(Y=yi) |
比如第一行,第一列的0.1就表示:X=10,Y=5出现的概率为0.1,可写成
多维随机变量的分布律又叫联合分布律。
联合分布函数
就是指(X,Y)这个二维随机变量的分布函数,用F(X,Y)表示。
边缘分布
二维随机变量中的X单独的分布律或者Y单独的分布律,就叫二维随机变量的边缘分布。
二维随机变量(X,Y)有2个边缘分布:P(X=xi) 和 P(Y=yi)
边缘分布P(X=x1)也可以写成
独立性
研究两个随机变量是否存在依赖关系。
当P(AB) = P(A) * P(B),则我们称随机变量A,B互相独立。
对于二维随机变量,就是联合分布函数满足 F(x,y) = F(x) * F(y)时,表示X,Y互相独立。
常见的二维分布
二维均匀分布
略
二维正态分布
略
二维随机变量函数的分布
一般就是已知随机变量X,Y的联合分布律,需要你求随机变量Z=f(x,y)的分布律。
例题:
已知X,Y的联合分布律如下。
X\Y | 1 | 2 | 3 |
---|---|---|---|
1 | 1/5 | 0 | 1/5 |
2 | 1/5 | 1/5 | 1/5 |
求Z = X+Y的分布律
一维随机变量的特征
- 观察数据的平均情况、平均值:数学期望
- 观察数据的离散程度:方差
数学期望
数学期望,实质就是随机变量值的概率加权平均
离散型随机变量的数学期望的定义:
设随机变量X的分布律为
记为E(X),即
连续型随机变量的数学期望的定义:
设随机变量X的概率密度为f(x),若积分
则称积分
什么是绝对收敛?
数学期望的性质
- 设C为常数,则有E(C) = C
- 设X为随机变量,C为常数,则有E(CX) = CE(X)
- E(X+Y) = E(X) + E(Y)
- E(aX+bY) = aE(X)+bE(Y)
- 若X,Y相互独立,则有E(XY) = E(X)E(Y)
随机变量函数的数学期望
假设有离散型随机变量X,其分布律为
若级数
例子:
1 | 4 | 9 | |
---|---|---|---|
X | 1 | 2 | 3 |
0.1 | 0.2 | 0.7 |
同理,假设有连续型随机变量X,其概率密度函数为以及随机变量Y=g(x);
则Y=g(x)的数学期望为:
方差
定义
设X是一个离散型随机变量,记D(X)为X的方差,则有:
实质就是偏差平方的加权平均,因此也可以表示成E{(X-E(X))^2},即求“每个X与数学期望的偏差的平方的数学期望”
根据数学期望的性质,简化后,方差可这样表示:
性质
- C为常数,则有D(C)=0
- X为随机变量,C为常数,则
- X为随机变量,C为常数,则D(X+C)=D(X)
- 若随机变量X,Y互相独立,则D(X+Y) = DX+DY
常见随机变量的数学期望和方差
分布 | 参数 | 分布律或概率密度函数 | 数学期望 | 方差 |
---|---|---|---|---|
0-1分布 | p | p | p(1-p) | |
二项分布B(n,p) | n,p | np | np(1-p) | |
泊松分布P( | ||||
均匀分布U(a,b) | a,b(a<b) | |||
正态分布 | ||||
指数分布 |
二维随机变量的特征
- 研究二维随机变量(X,Y)中,X和Y的线性相关性:协方差
什么是线性相关?
对于随机变量X,Y,有Y=aX+b这样的关系,则称X,Y为线性相关
协方差
定义:设(X,Y)是二维随机变量,且
记作
可以发现,协方差的求值公式与方差的非常像,可以联合一起记忆。
协方差为正,则表明X,Y正相关;
协方差为负,则表明X,Y负相关;
协方差的性质
- Cov(X,Y) = Cov(Y,X)
- Cov(X,Y+Z) = Cov(X,Y) + Cov(X,Z)
- Cov(aX,bY) = abCov(X,Y)
- Cov(a,X) = 0,a为任意常数
- Cov(aX1+bX2,Y) = aCov(X1,Y) + bCov(X2,Y)
- 如果X,Y相互独立,Cov(X,Y)=0
- D(X+Y) = D(X)+D(Y)+2Cov(X,Y)
相关系数
定义:设(X,Y)是一个二维随机变量,且X,Y的方差都存在,且都不为零;
则称下面的公式为X与Y的相关系数,用
相关系数跟协方差一样,是用来描述X,Y之间的相关性的; 只不过相关系数是对两个随机变量做了量纲的标准化。
对X,Y进行量纲的标准化后,对新的随机变量, 求出来的协方差,就是它们俩的相关系数。
相关系数的性质
,当 时,称X,Y不相关。 越大,相关性越大。- 当X,Y不相关时,有
- 若随机变量X,Y相互独立则X与Y不线性相关;但反之不一定(可能是其他的非线性相关关系)。
大数定律
切比雪夫不等式
略
依概率收敛
略
大数定律
名称 | 大数定律 | 注释 |
---|---|---|
切比雪夫大数定律 | ||
辛钦大数定律 | ||
伯努利大数定律 |
什么是独立同分布?
中心极限定理(重要)
名称 | 中心极限定理 |
---|---|
林德伯格-莱维中心极限定理 | |
棣(li)莫弗-拉普拉斯中心定理 |
9. 数理统计
演绎法(deduction)
通过定理(一定正确的理论)推断出其他定理。主要应用的学科:数学
归纳法(induction)
通过大量的实验,总结出一个大概率正确的规律。主要应用的学科:物理、化学、生物
数理统计就是通过归纳法——通过大量的实验去总结出规律。
研究的问题类似:
- 全球人类的身高分布、平均身高
- 100w个产品的平均使用寿命
这些问题因为统计对象的数量实在太多,统计难度大,因此一般不会对所有对象进行实验(比如不会真的统计全球人的身高)
而是从中抽出一部分的统计对象(样本),对样本进行统计分析,得到的分析结果用来描述整体数据的情况。
抽样调查
略
抽样分布
什么是统计量
统计量是指某个随机变量的一个“函数”,它本身也是一个随机变量。
常见的统计量
名称 | 公式 | 定义 |
---|---|---|
样本均值 | 定义见“数学期望”,反映数据的中心位置 | |
样本方差 | 定义见“方差”,反映总体分散情况 | |
样本标准差 | 定义见“标准差”,反映总体分散情况 | |
样本k阶原点矩 | 也叫“原点动差”,1阶原点动差实质就是样本均值 | |
样本k阶中心矩 | 也叫“中心动差”,2阶中心动差实质就是方差 |
样品分布与抽样分布
比如收集100个人的身高,并列成以下表:
人 | X1 | X2 | X3 | ... | X100 |
---|---|---|---|---|---|
身高 | 166 | 165 | 170 | ... | 180 |
这是抽样后的样品分布,直接反映统计样本的未经处理、最直接的数据的分布情况;
而抽样分布,则重复抽样N次,(重复从统计总体中抽取数量相同的样本),并研究其统计量的分布情况。
同样收集100个人的身高,重复收集3次,并计算每批次样本的均值、方差,最后总结成以下表格:
批次 | 第一批 | 第二批 | 第三批 |
---|---|---|---|
样本均值 | 164 | 169 | 168 |
样本方差 | 2069.49 | 5320 | 4865 |
三大抽样分布
定义:设
服从自由度为n的