统计学(statistics)

学之前需要先完成的课程

  • 高等数学(微积分,calculus)
  • 线性代数(linear algebra)
  • 概率论及数理统计(probability theory and mathematical statistics)

推荐教材 & 阅读书籍 & 视频

  • 《统计学原理》
  • 《统计学概论》

统计学课程大纲

  • 绪论
    • 统计学的含义
    • 统计学的作用
    • 统计学是如何解决实际问题的
    • 统计学的基本概念
  • 数据收集
    • 调查方案设计
    • 数据来源
    • 原始数据收集
    • 问卷设计
    • 数据质量
  • 整理与数据显示
    • 数据预处理
    • 定性数据的整理及展示
    • 定量数据的整理及展示
  • 数据分布特征
    • 集中趋势的测度
    • 离散趋势的测度
    • 偏态与峰度的测度
  • 抽样与参数估计
    • 抽样与抽样分布
    • 参数估计基本方法
    • 总体均值与总体比例的区间估计
  • 假设检验
    • 基本原理
    • 一个正态总体的参数检验
  • 回归分析
    • 一元回归、多元回归
    • 简单回归、多重回归
    • 线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归
  • 相关分析
  • 时间序列分析
  • 指数分析

1 绪论

1.1 统计的定义

1.2 统计学的基本概念

【统计总体】(Statistical Population)
研究所涉及到的所有对象,构成一个统计总体。他们有以下特征:

  • 同质性
  • 大量性

【总体单位】(Statistical Unit)
组成总体的各个个体。

【样本】(Sample)
由总体的部分单位组成的集合称为“样本”

【样本容量】(Sample Size)
样本所包含的总体单位数称为“样本容量”

【标志】(statistics)
在一个统计总体中,每个样本都有的属性。比如工人有性别、工种、文化程度、工资等的标志。
又分为:

  • 品质标志:仅能用文字描述,如性别

  • 数量标志:用数字表示的属性,如年龄,身高,体重

  • 不变标志:一旦有了,就不会改变的标志。比如性别

  • 异变标志:经常发生改变的标志。如工资

【数据的表现形式】

  • 统计绝对数:人数、重量、产值等
  • 统计相对数:两个有联系的现象数值相比得到的比率
    • 结构相对数:表示某部分在全部分中所占比重,以100作为基数
    • 强度相对数(复名数):在一定范围内,某现象的发生数与可能发生某现象的总数之比,说明某现象出现的强度或频度
    • 比较相对数:同类指标在不同空间进行静态对比形成的相对指标
    • 比例相对数(百分数):总体中各组成部分之间数量联系程度和比例关系的相对指标
    • 动态相对数(百分数):将同—现象在不同时期的两个数值进行动态对比而得出的相对数,借以表明现象在时间上发展变动的程度
    • 计划完成相对数(百分数):将实际完成数与计划规定数相比较,用以表明计划完成情况的相对指标
  • 统计平均数

【统计相对数的表现形式】
按照有没有单位,相对数还可以分为以下两种:

  • 有名数(复名数,compound number):有单位,且由分子、分母的计量单位同时使用形成的。如人口密度(人/平方千米)、平均工资(元/人)等
  • 无名数:不带单位,比如倍数、成数(十分之几)、百分数、千分数

【统计指标】(statistical indicators)
反映统计总体数量特征的概念或数值。
又分为:

  • 数量指标(又称总量指标):反映统计总体的总规模、总水平的指标。如中国总人口数、商品进出口总额等。用绝对数表示。
  • 质量指标:反映相对水平和工作质量的指标。如平均工资、人口密度。是数量指标的派生指标。用相对数或平均数表示。

【统计指标体系】
由一系列相互联系的统计指标组成的整体。常用的有:

  1. 经济统计指标体系,用于衡量一个国家或地区的经济活动和发展。
    • 国民生产总值(GDP)
    • 消费者物价指数(CPI)
    • 出口和进口额
  2. 金融统计指标体系,用于监测和评估金融市场的运行和稳定性。
    • 货币供应量
    • 存款余额
    • 贷款额
  3. 社会统计指标体系,用于描述和分析一个社会群体的人口和社会经济特征
    • 人口数量
    • 人口结构
    • 教育水平
    • 就业率
  4. 健康统计指标体系,用于评估一个地区或国家的健康状况和医疗服务情况。
    • 出生率
    • 死亡率
    • 健康保险覆盖率
  5. 环境统计指标体系,用于评估和监测环境质量和可持续发展情况。
    • 空气质量指数
    • 水质指数
    • 能源消耗
  6. 教育统计指标体系,用于评估一个地区或国家的教育发展和教育质量。
    • 教育经费占比
    • 教育水平指数
    • 师生比

【变量】(variable)
跟“标志”一样,表示样本的属性;在《概率论》中就是用变量来表示样本的属性。
又分为:

  • 连续型变量:变量的取值可能在某一区间连续不断,不能一一列举。如温度、湿度、长度等。
  • 离散型变量:变量的取值可以一一列举。如性别、企业数、工人数等。

【计量尺度】(measurement)
分为:

  • 定类尺度(nominal scale):变量值只可用来对样本进行分类。比如学科(语文、数学、英语)用0、1、2表示,在这里数值大小的比较没有意义,只用于分类。
  • 定序尺度(ordinal scale):变量值不仅用于分类,还可以反映不同样本的优劣及顺序。比如学生成绩分为优、良、中、差
  • 定距尺度(interval scale):变量值不仅可用于分类、比较顺序,而且可以反映优劣、顺序在数量上的差异。比如学生成绩
  • 定比尺度(ratio scale):对定距尺度做对比生成的相对数(或平均数),用于反映结构、比重、速度、密度等数量关系。

【数据类型】

  • 横截面数据:又称“静态数据”,指同一时间对同一总体内的单位观测而得的数据
  • 时间序列数据:又称“动态数据”,指不同时间对同一总体内的单位观测而得的数据
  • 面板数据:在不同时间、不同地点,对同一总体内的单位观测而得的二维数据

举例:
2005-2010年30个省份的农业总产值。

  • 2009年,广东省农业总产值(横截面数据,1个)
  • 2005-2010年,广东省农业总产值(时间序列数据,6个)
  • 2005-2010年,30个省份的农业总产值(面板数据,180个)

【分组形式】

  • 单项式分组(单项式变量数列)
  • 组距式分组(组距式变量数列)

单项式:

按年龄分组(岁)人数
18100
19150
20200

组距式:

按年龄分组(岁)人数
15~20100
21~25150
25~30200

2 数据收集

3 数据展示

4 数据分布特征

4.1 描述分布集中趋势的指标

  • 数值平均数
    • 算术平均
    • 加权算术平均(又叫数学期望)
    • 几何平均
    • 简单调和平均(又叫倒数平均数,HM-Harmonic Mean)
    • 加权调和平均
    • 幂平均
  • 位置平均数
    • 众数(Mode,一般用MoM_o表示)
    • 中位数(Median,一般用MeM_e表示)
    • 四分位数(quartile)
    • ...

4.1.1 算术平均值

算术平均数:一般是用“总体标志总量 / 总体单位数” 求得。

还有一种特殊的算术平均数:加权算术平均
在《概率论》中,也叫做数学期望(Expectation),多用E(X)来表示。
加权算术平均是用“变量加权后的总和 / 总体单位数” 求得。

算术平均值的求法

xˉ=i=1nxin\bar{x} = \frac{\sum_{i = 1}^{n}x_i}{n}

示例:

  • n个苹果的重量为x1,x2,...xn,求平均重量
  • n个人的身高为x1,x2,...xn,求平均身高y
  • n个人的工资为x1,x2,...xn,求平均工资y

加权平均数示例:

  • 买苹果,m1m_1个每个x1x_1元;买香蕉,m2m_2个每个x2x_2元...求水果价格的平均数是多少
算术平均数的性质

【性质1】 算术平均数与标志值个数的乘积等于各标志值的总和

nxˉ=i=1nxinn\bar{x} = \sum_{i = 1}^{n}\frac{x_i}{n}

【性质2】 各个标志值与其算数平均数的离差之和等于0

i=1n(xixˉ)=0\sum_{i = 1}^{n}(x_i - \bar{x}) = 0

【性质3】 各标志值与算数平均数的离差平方和最小

各标志值与某个值y的离差平方和 z = i=1n(xiy)2\sum_{i = 1}^{n}(x_i - y)^2

y=xˉy = \bar{x}时,z 最小。即:

i=1n(xixˉ)2=min(x)\sum_{i = 1}^{n}(x_i - \bar{x})^2 = min(x)

【性质4】 对被平均的变量实施某种线性变换后,新变量的算数平均数等于原变量的算数平均数实施同样线性变换的结果。

即假设求的 xˉ=5\bar{x} = 5,现在有 y = 5x + 2,则根据性质4可求得 yˉ=5xˉ+2=27\bar{y} = 5 * \bar{x} + 2 = 27

【性质5】 对于任意两个变量x和y,它们的代数和的算数平均数等于两个变量的算数平均数的和。

(x+yˉ)=xˉ+yˉ(\bar{x+y}) = \bar{x} + \bar{y}

4.1.2 几何平均(GM-Geometric Mean)

总体变量的乘积的n次方根(n为变量的个数)

示例:

  • n个车间的制品合格率为x1,x2,...xn,求平均合格率
  • n个理财产品的收益率为x1,x2,...xn,求平均收益率

4.1.3 调和平均数

求法:z=1i=1n1x1z = \frac{1}{\sum{i=1}^{n}\frac{1}{x_1}}

简单来说就是:分子相同,分母不同,把分母调成平均数再当分母。

举例1:顺流速度30,逆流速度20,平均速度为多少?
速度=距离/时间,因为同一距离,所以分子相同。
假设距离为1,那么顺流速度的分母为:1/30,逆流为:1/20。
分母平均数为:(1/30+1/20)/2
再用分子1除以分母平均数得出平均速度:2/(1/30+1/20)=23020/(30+20)

4.1.4 幂平均数

4.1.5 位置平均数

按数据的大小顺序或出现频数,来确定分布的集中趋势。分为:众数中位数四分位数...

4.1.6 众数

MoM_o表示。

当数据是组距式变量数列时,如何求众数?

答:

  1. 先找出次数最多的变量值所在组
  2. 再根据众数的下限公式计算出众数的近似值

众数下限公式:Mo=LMo+fMofMo1(fMofMo1)+(fMofMo+1)×dMoM_o = L_{M_o} + \frac{f_{M_o}-f_{M_o-1}}{(f_{M_o}-f_{M_o-1}) + (f_{M_o}-f_{M_o+1})} \times d_{M_o}

其中,
MoM_o代表众数;
LMoL_{M_o}代表众数组的下限;
fMof_{M_o}代表众数组的次数;
fMo1f_{M_o-1}代表众数组上一个组的次数;
fMo+1f_{M_o+1}代表众数组下一个组的次数;
dMod_{M_o}代表众数组的组距;

也可以用众数上限公式:Mo=UMofMofMo1(fMofMo1)+(fMofMo+1)×dMoM_o = U_{M_o} - \frac{f_{M_o}-f_{M_o-1}}{(f_{M_o}-f_{M_o-1}) + (f_{M_o}-f_{M_o+1})} \times d_{M_o}

其中,
UMoU_{M_o}代表众数组的上限;

4.1.5 中位数

中位数一般用MeM_e表示。

当数据有奇数个时,中间的数只有一个,直接取即可;

当数据有偶数个时,中间的数有两个,则中位数取这两个数的平均数。

当数据是组距式变量数列时,如何求中位数?

答:同样,

  1. 先找出次数最多的变量值所在组
  2. 再根据中位数的下限公式计算出中位数的近似值

中位数下限公式:Me=LMe+f2SMe1fMe×dMeM_e = L_{M_e} + \frac{\frac{\sum{f}}{2}-S_{M_e-1}}{f_{M_e}} \times d_{M_e}

其中,
MeM_e表示中位数;
f2\frac{\sum{f}}{2}表示中位数的次数在第几次;
SMe1S_{M_e-1}表示中位数组上一组的次数(频数);
fMef_{M_e}表示中位数组的次数(频数);
dMed_{M_e}表示中位数组的组距;

4.2 描述分布离散程度的指标

4.2.1 什么是变异指标

变异指标是反映总体各单位标志值的差异程度或离散程度指标。

4.2.2 变异指标的作用

  1. 衡量平均指标是否有代表性(重点是这个
  2. 反映社会经济活动的均衡性
  3. 衡量统计推断效果

4.2.3 有哪些变异指标

变异指标描述优点缺点
极差(range)也称“全距”,是统计总体中最大值与最小值之差计算简便未能充分利用数据;容易受极端值影响,因此很少用极差
四分位差(interquartile range)计算公式:Q.D=Q3Q1Q.D = Q_3 - Q_1
Q1Q_1为统计总体中从小到大排在四分之一的那个数;
Q3Q_3为统计总体中从小到大排在四分之三的那个数;
避免了极端值的影响未能充分利用数据
平均差 (Mean difference)计算公式:M.D=i=1nxixˉnM.D =\frac{\sum_{i=1}^{n}\lvert x_i - \bar{x}\rvert}{n}
各个数据与其均值的离差绝对值的平均数
充分利用了数据需要计算绝对值,比较麻烦
方差(variance)计算公式:ρ2=i=1n(xixˉ)2n\rho^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}充分利用了数据,是衡量变异程度最常用的指标
标准差(standard deviation)计算公式:ρ=i=1n(xixˉ)2n\rho = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}}
对方差求根得到的就是标准差

4.2.4 方差与标准差

【性质1】 变量的方差等于变量平方的平均数减去变量平均数的平方
ρ2=x2ˉ(xˉ)2\rho^2 = \bar{x^2} - (\bar{x})^2

【性质2】 变量对其算术平均数的方差小于对任意常数的方差。

【性质3】 n个同性质独立变量和的方差等于各个变量方差的和。(什么是同性质

【性质4】 n个同性质独立变量平均数的方差等于变量方差平均数的1/n。

【性质5】 变量线性变换的方差等于变量的方差乘以变量系数的平方。
设: y=a+bx
则: ρy2=b2ρx2\rho_y^2 = b^2 \rho_x^2
推论: ρx+a=ρx\rho_{x+a} = \rho_xρbx=b2ρx\rho_{bx} = b^2 \rho_x

4.2.5 变异系数

假设,通过统计,得到了大象群体重的标准差为500kg,兔子群体重的标准差为0.5kg。
仅凭数字,会觉得大象群体重的离散程度更大,但实际上大象跟兔子的体重根本不在一个数量级上,没有可比性,此时比较两者的标准差没有意义。
人们发现,可以通过用标准差除以平均值,得到的结果具有可比性,这个结果也称为变异系数

变异系数也称为离散系数,分别有:

  • 极差系数
  • 四分位差系数
  • 平均差系数
  • 标准差系数
    其都是用各自的值除以算术平均值得到的一个百分数。

4.2.6 异众比率

异众比率是指非众数值的次数之和在总次数中所占比重。

异众比率主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。

4.2.7 统计动差(statistical moment)

又称为,可以分为:

  • 原点动差:μ=i=1nxkn\mu = \frac{\sum_{i=1}^{n}x^k}{n},其中x为变量值,n为变量的个数,k为阶数,按实际需求去选择k的数值。
  • 中心动差:μ=i=1n(xxˉ)kn\mu = \frac{\sum_{i=1}^{n}(x-\bar{x})^k}{n},其中x为变量值,xˉ\bar{x}为算术平均数,n为变量的个数,k为阶数,按实际需求去选择k的数值。

提起动差,一般就是指原点动差;而中心动差也被称为中心矩

假设有一组身高数据

身高
A165
B170
C175
D180

【原点动差】
我们取阶数k=1,代入公式,求得1阶原点动差:
μ=165+170+175+1804=172.5\mu = \frac{165+170+175+180}{4} = 172.5 ,我们发现,1阶原点动差实质就是算术平均数

【中心动差】
k=0时,中心动差 v0=1v_0 = 1
k=1时,中心动差 v1=0v_1 = 0
k=2时,中心动差 v2=ρ2v_2 = \rho^2,即方差

4.3 描述分布的偏度和峰度

4.3.1 偏度

用来衡量频数分布不对称程度或偏斜程度的指标。

测定偏度最常用的方法是利用中心矩(即中心动差)来计算偏度系数

如果分布对称的,所有奇数阶中心矩都为0.反之,只有一阶的为0,其他的都不为0。

最便利的就是用三阶中心矩,为了消除量纲的影响(参考变异系数),可用ρ3\rho^3去除量纲的影响,于是有偏度系数公式
Sk=v3ρ3=v3(v2)32S_k = \frac{v_3}{\rho^3} = \frac{v_3}{(v_2)^{\frac{3}{2}}}

如果Sk=0S_k=0,数据分布是对称的;
如果Sk<0S_k<0,数据分布是左偏的(峰值在算数平均数的左边);
如果Sk>0S_k>0,数据分布是右偏的(峰值在算数平均数的右边);
Sk|S_k|越大,证明偏斜越严重;

4.3.2 峰度

峰度反映分布曲线尖峭程度的指标。

可分为:

  • 正态峰度:如果数据满足正态分布,则其峰度曲线是正态峰度
  • 尖顶峰度:比正态分布曲线更加尖峭,则为尖顶峰度
  • 平顶峰度:比正态分布曲线更加平缓,则为平顶峰度

峰度系数的计算:
正态分布曲线的四阶中心矩V4V_4与其标准差的四次方ρ4\rho^4之比恒为3(V4ρ4=3\frac{V_4}{\rho^4} = 3,因此求任意数据分布的峰度系数有以下公式:
K=V4ρ43=V4(V2)23K = \frac{V_4}{\rho^4} - 3 = \frac{V_4}{(V_2)^2} - 3

K>0为尖顶峰度、K<0为平顶峰度、K=0为正态峰度。
K越大,分布曲线越尖峭。

5 抽样分布 & 参数估计

Tips

总体分布、样本分布、抽样分布的区别是什么?

总体分布:指的是总体中所有元素的出现概率的分布

样本分布:是从总体中按一定的分组标志选出来的部分样本容量所形成的分布

抽样分布:是指样本估计量的分布,即统计量的分布。

  1. 抽样分布是通过对样本数据进行计算得到的统计量(如样本平均数、样本比例等)的概率分布
  2. 它是基于样本分布的进一步抽象,描述了当按照相同的样本容量和抽样方式反复抽取样本时,所有可能样本的统计量所形成的分布。
  3. 由样本统计量的所有可能取值以及相应的概率组成,也被称为“关于样本分布的分布”。

Tips

什么是样本统计量

描述样本数据分布特征的指标,如均值、中位数、标准差、方差、偏度、峰度等

5.1 概念

  • 样本容量
  • 样本个数
  • 总体参数
  • 样本统计量
  • 放回抽样
  • 不放回抽样

5.2 抽样分布

抽样,指从总体中抽取部分个体作为样本来研究;
抽样分布,则指重复n次抽样,每次抽样的样本统计量的分布特征;

示例:样本平均数的抽样分布

小区总共1000人,抽取50人,抽取n次,每次样本平均年龄的分布;

第几次123...n
平均年龄242627...29

对于放回抽样:

  1. 当总体服从正态分布时,根据正态分布再生定理,其样本平均数也服从正态分布;
  2. 当总体不服从正态分布时,根据中心极限定理,当n充分大时(一般要求n>=30),样本平均数近似服从正态分布;

因此,服从正态分布的样本平均数,
其数学期望E(Xˉ)=μE(\bar{X}) = \mu
方差ρ2(Xˉ)=ρ2n\rho^2(\bar{X}) = \frac{\rho^2}{n}
样本平均数的正态分布可以用该式子表示: XˉN(μ,ρ2n)\bar{X} \sim N(\mu,\frac{\rho^2}{n})

Tips

什么是正态分布再生定理

若总体服从正态分布 ,则样本均值也服从正态分布。

具体来说,若总体分布为XN(μ,ρ2)X \sim N(\mu,\rho^2),则样本均值的分布为xˉN(μ,ρ2n)\bar{x} \sim N(\mu,\frac{\rho^2}{n})

Tips

什么是中心极限定理

对于任一总体(不要求正态),期望值Xˉ\bar{X},方差S2S^2
当样本容量n足够大(当n>30,大样本),则样本均值xˉ\bar{x}也趋于服从正态分布。

5.3 抽样误差

由于抽样的非全面性和随机性所引起的偶然性误差。

表现形式:

抽样实际误差
是一个随机变量,不可能测量出来

抽样标准误差(Standard Error)
抽样平均数或抽样成数(加权平均数)的标准差,一般用Se(xˉ)Se(\bar{x})表示。
抽样标准误越大,表明抽样分布越离散,样本统计量对总体参数的代表性越差
计算公式:Se=SnSe = \frac{S}{\sqrt{n}},其中,S为样本标准差,n为样本大小。

抽样极限误差
以样本统计量估算总体参数时允许的最大误差范围。
一般用Δ\Delta(Delta)表示。
计算公式: Δ=za/2×Se(xˉ)\Delta = z_{a/2} \times Se(\bar{x})
za/2z_{a/2}概率度

5.4 区间估计

两个基本要求:

  • 置信度
  • 精确度

步骤:

  1. 根据样本数据,计算标准误Se(xˉ)Se(\bar{x})
  2. 给定置信区间1α1-\alpha,查表得到Zα/2Z_{\alpha/2}
  3. 求极限误差Δ=Zα/2Se(xˉ)\Delta = Z_{\alpha/2} Se(\bar{x})
  4. 根据2和3,得到区间估计 Xˉ[xˉΔ,xˉ+Δ]\bar{X} \in [\bar{x} - \Delta,\bar{x} + \Delta]

Note

样本容量的计算
在不考虑调查经费时,简单随机抽样的样本容量可由下式计算:
n=Zα/22×S2Δ2n= \frac{Z_{\alpha/2}^2 \times S^2}{\Delta^2},其中S2S^2为总体方差,通常用样本方差代替。

6. 假设检验

在数理推断中,有以下情况:

  1. 总体分布类型未知
  2. 总体分布类型已知,但参数未知

假设就是对分布中参数(均值、方差)的假设,假设检验就是利用样本来验证假设成立与否。

6.1 检验假设的基本步骤

  1. 先提出2个检验假设,并设定检验水准

原假设:又叫无效假设,用H0H_0表示,表示这是我们想证明其不成立的假设
备择假设:原假设的对立假设,用H1H_1表示

假设也分为3种:

假设双侧检验左侧检验右侧检验
原假设:H0H_0$ \mu = \mu_0$$ \mu \leq \mu_0$$ \mu \geq \mu_0$
备择假设:H1H_1$ \mu \neq \mu_0$$ \mu < \mu_0$$ \mu > \mu_0$

检验水准:又叫显著性水平,用α\alpha(alpha)表示,表示小概率事件发生的概率。一般取α=0.05\alpha = 0.05α=0.01\alpha = 0.01

Note

在做假设检验时,我们遵从小概率原理:小概率事件在一次试验中实际上不会发生。
如果抽样结果导致小概率事件发生,则有理由怀疑H0H_0,从而拒绝H0H_0假设;

  1. 选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如标准离差Z、X2值、t值等。

统计方法有:

  • Z检验
  • T检验(主要用于样本含量较小(如n<60),总体标准差σ未知,呈正态分布的计量资料。)
  • 秩和检验
  • 卡方检验
  • ...
  1. 根据统计量的大小及其分布确定检验假设成立的可能性P的大小。

  2. 最后,做出无法拒绝假设or拒绝假设的决定。

Note

在做完假设检验后,如果得出“无法拒绝假设”的决定,表明我们无法否定这种假设是成立的,但不表明这种假设完全正确。

Tips

各种概念很难理解?试试结合下面的例子去理解。

6.2 总体均值的假设检验

假设我们现在有一个洗衣粉厂,要求生产的每袋洗衣粉500g,洗衣粉总体方差为4。
洗衣粉厂每袋洗衣粉的重量分布就形成了一个正态分布

XN(μ,σ2) X \sim N(\mu,\sigma^2)

Note

思考:如何检验洗衣粉的重量分布是正态分布?
参考:https://zhuanlan.zhihu.com/p/612238185open in new window

我们想看看现在的生产符不符合这个要求,就要知道所有洗衣粉的重量均值Xˉ\bar{X}(总体参数)。
所有洗衣粉的重量获取不方便,因此采用抽样的方法来做假设。

  1. 提出假设

已知方差σ2=4\sigma^2=4,我们就假定洗衣粉符合要求(原假设),所有洗衣粉的重量均值Xˉ=500\bar{X} = 500,即

H0:μ=500 H_0 : \mu = 500

那么备择假设就是

H1:μ500 H_1 : \mu \neq 500

  1. 构建检验统计量

洗衣粉的重量X符合正态分布,又已知方差,因此我们可以通过计算X的样本x的标准分数Z,来作为我们的检验统计量。

Note

标准分数Z是专门用于衡量样本均值和总体均值的差别

我们从总体中抽取9袋样本,重量分别为:505、499、502、506、498、498、497、510、503

根据正态分布再生定理,样本均值的分布为

XˉN(500,49) \bar{X} \sim N(500,\frac{4}{9})

对正态分布的随机变量X标准化之后,得到标准分数

Z=Xˉ5002/3N(0,1) Z = \frac{\bar{X}-500}{2/3} \sim N(0,1)

Z的概率密度曲线图

然后,选择我们的检验水准,一般选α=0.05\alpha = 0.05,再查标准正态分布表,查看α\alpha对应的Zα2Z_{\frac{\alpha}{2}}的取值。

标准正态分布表:

概率Z值 (单侧)对应的Z值范围 (双侧)
0.68271.00-1.00 到 1.00
0.90001.64-1.64 到 1.64
0.95001.96-1.96 到 1.96
0.97502.00-2.00 到 2.00(近似)
0.99002.33-2.33 到 2.33
0.99502.58-2.58 到 2.58
0.99752.81-2.81 到 2.81
0.99903.09-3.09 到 3.09
0.99953.29-3.29 到 3.29
0.99993.89-3.89 到 3.89

可以看到,当α=0.05\alpha = 0.05时,Zα2Z_{\frac{\alpha}{2}} 取1.96。也就是当Z小于-1.96或者U大于1.96时,小概率事件发生了。

Z的概率密度曲线图

我们看看这次抽样结果有没有落到小概率事件里头。

样本均值:Xˉ=19i=19xi=502\bar{X} = \sqrt{1}{9} \sum_{i=1}^9 x_i = 502

Z=Xˉ5002/3=3>Zα2|Z| = \frac{\bar{X}-500}{2/3} = 3 > Z_{\frac{\alpha}{2}}

样本数据落在小概率事件里头,与我们的假设矛盾,因此我们应拒绝相信洗衣粉合格。

6.3 假设检验存在的两种错误

第一类错误:弃真。H0H_0假设实际为真,但通过样本推断被拒绝了。P{拒绝H0H_0|H0H_0为真} =α\alpha
第二类错误:纳伪。H0H_0假设实际为假,但通过样本推断被接受了。P{接受H0H_0|H0H_0为假} =β\beta

我们当然希望α\alphaβ\beta两个概率越小越好,但想同时都很小几乎不可能。
除非N的样本容量无限加大,我们选择在确保α\alpha的前提下再尽可能减少β\beta

6.4 假设检验的方法

上面我们用的检验方法,叫Z检验

当我们已知σ2\sigma^2的情况下,需要验证μ\mu的值,采用Z检验

当我们未知σ2\sigma^2,但为大样本(样本数>30),需要检验μ\mu的值,用样本方差s2s^2代替σ2\sigma^2,采用Z检验

当我们未知σ2\sigma^2,且为小样本(样本数<30),需要检验μ\mu的值,,用样本方差s2s^2代替σ2\sigma^2,采用t检验

当我们已知/未知μ\mu,需要检验σ2\sigma^2的值,则采用卡方检验法

Note

t检验t=xˉμ0s/nt(n1)t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}} \sim t(n-1)
即新的变量t服从自由度为n-1的t分布

6.5 两个总体均值差的检验

上面,我们是对某个总体的均值进行假设检验。

这一节,我们看如何对两个总体的均值差进行假设检验。

对两个总体x1x_1,x2x_2,也分3种情况,去选择检验方法:

  1. μ12\mu_1^2μ22\mu_2^2已知(即两个总体的方差已知)
  2. μ12\mu_1^2μ22\mu_2^2未知,μ12=μ22\mu_1^2=\mu_2^2,且n(样本量)较小
  3. μ12\mu_1^2μ22\mu_2^2未知,μ12μ22\mu_1^2 \neq \mu_2^2,且n(样本量)较小

1. μ12\mu_1^2μ22\mu_2^2已知

【假定条件】

  1. 两个样本都是独立随机样本
  2. 两个总体都是正态分布或者大样本(n>30)

此时,使用Z检验

【步骤】

  1. 提出假设
    原假设H0:μ1μ2=0H_0: \mu_1 - \mu_2 = 0
    备择假设H1:μ1μ20H_1: \mu_1 - \mu_2 \neq 0

  2. 构建统计量

z=(x1ˉx2ˉ)(μ1μ2)σ12n1+σ22n2N(0,1) z = \frac{(\bar{x_1}-\bar{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

其中,xˉ\bar{x}是样本均值,μ\mu是总体均值,σ\sigma是标准差,n是样本量。

  1. 确定拒绝域α=0.05\alpha = 0.05),看统计量最后是否落在置信区间

  2. 作出决策

2. μ12\mu_1^2μ22\mu_2^2未知,μ12=μ22\mu_1^2=\mu_2^2,且n(样本量)较小

使用t统计量。略。

3. μ12\mu_1^2μ22\mu_2^2未知,μ12μ22\mu_1^2 \neq \mu_2^2,且n(样本量)较小

也是使用t统计量。略。

6.6 成数的假设检验

成数指比例,成数的假设检验一般如下:

  1. 检验生产的洗衣粉合格率是否超过9成(即单个总体成数的假设检验)
  2. 检验A厂生产的合格率跟B厂是否相等(即两个总体成数的假设检验)

一般用大写PP表示总体的成数,小写pp表示样本的成数

对于单个总体成数的假设检验

假定条件:

  1. 有2种结果0或1,其中1出现的成数P介于0~1之间。
  2. 当样本容量足够大,即nP和n(1-P)都大于5,成数P的抽样分布近似服从正态分布。

此时可用z统计量

两个总体成数的假设检验

假定条件:

  1. 两个总体是独立的
  2. 都服从二项分布
  3. 可以用正态分布近似

6.7 方差的假设检验

一般用σ2\sigma^2表示总体方差,用s2s^2表示样本方差。

单个总体方差的假设检验

假定条件:

  1. 总体服从正态分布,即XN(μ,σ2)X \sim N(\mu,\sigma^2)μ\muσ2\sigma^2均未知

使用χ2\chi^2(卡方)统计量。χ2=(n1)s2μ02χ2(n1)\chi^2 = \frac{(n-1)s^2}{\mu_0^2} \sim \chi^2(n-1)

7. 回归分析

【什么是回归分析

对具有相关关系的两个或以上的变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学表达式
以便对因变量进行估计或预测的统计分析方法。

【回归分析的步骤】

  1. 确定自变量因变量
  2. 确定回归分析模型的类型数学表达式(回归方程)
  3. 对回归分析模型进行评价诊断
  4. 根据给定的自变量数值估计预测因变量的值

【回归分析的分类】

  • 按自变量的个数,分为:一元回归、多元回归
  • 按变量之间的关系形态,分为:线性回归、非线性回归

【回归分析的输出】

回归方程

7.1 一元线性回归模型

【一元】:只有一个因变量,一般用x表示

【线性】:因变量y与自变量x之间为线性关系

对于这样的回归模型,可以用以下线性方程来表示:

yi=β0+β1xi+ε y_i = \beta_0 + \beta_1 x_i + \varepsilon

其中,β0\beta_0β1\beta_1模型参数ε\varepsilon(埃普西隆)为误差项随机变量

对于随机误差项ε\varepsilon,需要满足以下假定:

  1. E(ε)=0E(\varepsilon) = 0 (均值为0)
  2. Var(εi)=Var(yi)=σ2Var(\varepsilon_i) = Var(y_i) = \sigma^2 (方差固定为σ2\sigma^2
  3. Cov(εi,εj)=0Cov(\varepsilon_i,\varepsilon_j)=0ε\varepsilon服从正态分布)
Last Updated:
Contributors: dongyz8