What is Probability theory and Mathematical Statistics
生活中的现象根据是否可事前预言,分为确定性现象和非确定性现象。
在非确定性现象中有一类很重要的现象:随机现象随机现象的性质:
- 各个结果出现的可能性大小不依人们的主观意志转移
- 试验的结果不止一个,即每次试验的结果可能不同——结果的不确定性。
- 进行大量重复观察时,可观察出出现各种结果呈现某种规律——统计规律性
概率论与数理统计— 研究随机现象的统计规律性的一门数学学科
概率统计、随机过程以及概率图模型,三位一体、一脉相承的结合起来,一步步掌握其中的核心思想。概率统计是基础,随机过程和概率图模型作为拓展和深化。
概率统计看《概率导论》
概率思想、随机变量、统计推断、随机过程、采样理论、概率模型。
在机器学习算法的修炼道路中,概率图模型和随机过程对很多同学而言是一个巨大的拦路虎。
一些杂感
-
事件关系可用文氏图,概率就不行了。。独立性
伯努利是一次实验,二项是重复多次进行伯努利实验后成功的次数,几何是第一次成功是第几次。
《概率导论》的分布列就是考试的分布律,有$P{X=x_i}=p_i$,概率导论这个形式更好看$p_{X}(x_i)$
$P{X=x_i,Y =y_j}=p_{ij}$以及概率导论的$p_{X,Y}(x_i,y_j)$
独立同分布的随机变量的加权和的均值和方差的公式 是
样本均值作为随机变量的期望的估计
的统计过程的理论基础一般连续变量相对于离散变量的优势:除了刻画细致和精确外,连续随机变量模型可以利用有力的分析工具解决概率的计算问题。更重要的是它可以做到离散随机变量做不到的:
刻画某些随机现象的本质。
指数变量的核心性质:$X$超过某个值的概率,随着这个值的增加而 指数递减$P(X\geq a) = e^{-\lambda a}$
线性变化下,随机变量的正态性保持不变。标准正态分布的 $F$ 写作 $\Phi$
泊松、二项、正态具有可加性,加的是$\lambda$和$n$,$\mu、\sigma^2$
注意一些分布信息,还有随机变量的函数,自带定义域信息。。。
所谓简答题,给出简单的例子说明他为什么能这样做,要给出定理的条件,然后说明这个例子具有相应的性质来满足条件
乘法公式,本就是描述在概率论里如何刻画乘法关系,刻画连续的关系,加法公式也是类似,乘法、加法的本质是不变的,变的只是在概率论里的形式。而这要分两种情况,相乘的变量是否独立。不独立就是条件形式。
$P(A_1\cup A_2\cup A_3) = P(A_1\cup \overline{A_1}A_2\cup \overline{A_1}\ \overline{A_2}A_3) = P(A_1) + P(\overline{A_1})P(A_2|\overline{A_1}) + …$
基本概率论
随机试验:对随机现象所进行的观察和实验,可在相同条件下重复进行、事先可明确知道所有可能结果,且不可预言出现何结果。
随机试验的每一个可能发生也可能不发生的事情为随机事件,简称事件.
基本事件 在一次试验中必发生一个且仅发生一个的最简单事件.
全体基本事件的对应元素所组成的集合称为试验的样本空间样本空间的元素称为样本点.
$A-B = A\overline{B}$
概率是对随机事件发生可能性大小的一个客观度量
概率是通过公理化定义的。非负、规范、可列可加、单调。
概率公理化单调性:
若$A \subset B$,则$ P(A)\leq P(B)$,且$P(B-A) = P(B) - P(A)$
因此$P(A - B)=P(A-AB) = P(A) - P(AB)$ 并且 $P(A-B) = P(A\cup B)-P(B)$
随机变量
取值由随机试验的结果来确定;取各数值的可能性大小有确定的统计规律性
它可以完整地描述试验结果,从而可用量化分析方法来研究随机现象的统计规律性。
概率为0的事件不一定是不可能事件,为1不一定是必然事件(因为连续型变量)
联合分布函数F
$F(x,y) = P{X\leq x,Y\leq y}$,包括了右端点
$F_X(x) = \underset{y\rightarrow \infty}{lim}F(x,y)$
单调不降;右连续;非负有界$0\leq F(x,y)\leq 1$;
$F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)=P{x1\leq x\leq x2,y1\leq y\leq y2}$
$P{X = x} = F(x) - F(x-0)$ 其他情况为0
:star: 对称分布的分布函数有:$F(-x) = 1-F(x)$
上侧分位数$u_\alpha$:$F(u_\alpha) = 1-\alpha$
$\displaystyle F_X(x)=\int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv=\int_{-\infty}^{x}f_X(u)du$
联合分布列p——离散
$P{X = x_i,Y = y_j} = p_{ij}$
$P{Y = y_j} = \displaystyle\sum_{i=1}^{\infty}p_{ij}$
九宫格划分空间(离散型),分类求F
联合分布密度f——连续
联合概率密度函数包含了所有关于($X,Y$)的取值概率的信息,包括相互依赖的信息。
$f(x,y) \geq 0$ 处处成立
$\displaystyle\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(u,v)dudv = 1$
对$G \sub R^2$
$P{(x,y)\in G}=\underset{G}{\iint_{}^{}}f(x,y)d\sigma$
$f_X(x)=\displaystyle\int_{-\infty}^{+\infty}f(x,y)dy$
$f_X(x) = F^{‘}_X(x)$
二维正态随机变量边缘分布仍为正态。
可由二维联合概率密度完全确定边缘概率密度,反之不行。X,Y独立分布的充要条件是$\rho = 0$
独立
定义:任意x,y有$P{X\leq x,Y\leq y} = P{X\leq x}P{Y\leq y}$
即 $F(x,y)=F_X(x)F_Y(y)$
定理:$P{X= x_i,Y= y_j} = P{X= x_i}P{Y= y_j}$(离散) 是独立的充要条件
连续:$f(x,y)=f_X(x)f_Y(y)$ 在平面上除去“面积”为零的集合后成立,而不是平面上均成立。
大题就分别得到左右两侧,然后看相等否。
条件分布率
$P{Y= y_j |X= x_i}=\frac{p_{ij}}{p_{i.}}$
条件概率密度
$f_{Y|X}{y|x}=F^{‘}_{Y|X}{y|x}=\frac{f(x,y)}{f_X(x)}$
如果是一个具体时间,那么$f_{Y|A}(x)=\frac{f_X(x)}{P(X\in A)}$
$\displaystyle f_{X}(x) = \int_{-\infty}^{+\infty}f_Y(y)f_{X|Y}{x|y}dy$联合、边缘、密度相互关联
在X = c 条件下,随机事件${a<Y\leq b}$的条件概率:
$\displaystyle P{a<Y\leq b |X=c}=\int_{a}^{b}f_{Y|X}(y|c)dy$
求离散随机变量的函数及其分布律P83
列表得出可能的值,填上分布律。
离散卷积公式,二项式和泊松的可加性。
求连续随机变量的函数及其概率密度P85
此时,y相当于未定的常数,要进行讨论。
分布函数法,先利用原来的fx,求得Fy,再求导得fy、
公式法,只适用于全局严格单调的函数y = g(x)。
随机变量的函数的数学期望:
数学期望存在的条件:
定理4.1.1 设 Y 是随机变量X的函数Y=g(X),g(x)为连续函数
:star: 二维时,$E(X) = \displaystyle \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf(x,y)dxdy = \int_{-\infty}^{\infty}xf_X(x)dx$
$E(x)$具有线性性、而相互独立时$E(XY)=E(X)E(Y)$
方差定义:$D(X) = E[X-E(X)]^2$;标准差$\sigma(X) = \sqrt{D(X)}$
常用计算公式:$D(X) = E(X^2) - [E(X)]^2$
$D(X\pm Y)=D(X)+D(Y)\pm 2cov(X,Y)$,独立时,$cov(X,Y)=0$
协方差定义:$cov(X,Y) =E{[X-E(X)][Y-E(Y)]}$
对称性、齐性 $cov(aX,aY) = abcov(X,Y)$ $cov(X,c) =0$
可加性$cov(X_1+X_2,Y)=cov(X_1,Y)+cov(X_2,Y)$
相关系数$\rho_{xy} = \frac{cov(X,Y)}{\sqrt{D(X)D(Y)}} = \frac{E(X_1X_2)-E(X_1)E(X_2)}{\sqrt{D(X)D(Y)}}$ ,是量纲为1的量,衡量 线性 相关关系。
$|\rho_{xy}| = 1 \leftrightarrow$X、Y线性相关,即Y =AX+b
相互独立(更本质)一定不相关$(\rho = 0)$,反之不成立(除了二维正态里的X,Y,但是两个普通的正态分布不算)。
矩:更一般的数字特征。【只考统计部分要用得到的】
可以证明,若随机变量的高阶矩存在,则低阶矩一定存在。
多维正态随机变量【不考】
希望不考:随机变量$(X_1,X_2,…,X_n)$的线性变换$BX$(B是个mxn矩阵),服从m维正态分布$N(Bu,BCB^T)$
大数定律和中心极限定理是独立随机变量序列的部分极限定理。
切比雪夫理解:$P{|X-E(X)|\geq\varepsilon} \leq\frac{D(X)}{\varepsilon^2}$ 和 $$P{|X-E(X)|\leq\varepsilon} \geq1-\frac{D(X)}{\varepsilon^2}$$
随机变量的取值偏离均值一定范围的概率上界,正比于方差(方差越大分布越广),反比于给定的范围。
可用来证明依概率收敛。
大数:取一个序列的随机变量平均,以及均值的平均。
刻画了随机变量序列,分布的中心收敛于均值之和,描述的是【聚散】
切比雪夫:相互独立,期望、方差均存在,方差一致有界。$\displaystyle \lim_{ n\to \infin}P{|\frac{1}{n}\sum_{i=1}^nX_i -\frac{1}{n}\sum_{i=1}^nE(X_i)|<\varepsilon} =1$
独立同分布:独立同分布,期望、方差存在。$\displaystyle \lim_{ n\to \infin}P{|\frac{1}{n}\displaystyle\sum_{i=1}^nX_i -\mu|<\varepsilon} =1$
辛钦:独立同分布,期望存在。$\displaystyle \lim_{ n\to \infin}P{|\frac{1}{n}\displaystyle\sum_{i=1}^nX_i -\mu|<\varepsilon} =1$
伯努利:$\displaystyle \lim_{ n\to \infin}P{|\frac{m}{n} -p|<\varepsilon} =1$
中心:找到一个(独立同分布)的序列,均落在某一范围。
实质是刻画了相互独立的某些随机变量序列,其和的分布随样本增多而收敛于正态分布。描述的是【形态】
(不是所有序列都满足该条件的!!)
独立同分布中心定理(相互独立同分布,期望、方差存在,用$n\mu$和$\sqrt{n}\sigma$替换式子里的两项。)
D-L中心极限定理:(二项分布时,用$np$和$\sqrt{np(1-p)}$替换式子里的两项)
数理统计
研究如何以有效的方式收集和整理随机数据
研究如何合理地分析随机数据从而作出科学的推断 (称为统计推断).
弄清楚样本量和总体的统计量的符号和定义!不然老是混淆。
总体参数(ML里的期望分布)
数学期望:$\mu$ = $E(X)$
方差:$\sigma^2 = D(X) =\mu_2 =\gamma_2 - \gamma_1^2 $
$k$ 阶原点矩:$\gamma_k = E(X^k)\ (k = 1,2,…)$
$k$ 阶中心矩:$\mu_k = E{[X-E(X)]^k}\ (k = 1,2,…)$
样本统计量(ML里的经验分布)
样本均值:$\overline{X}=\frac{1}{n}\displaystyle\sum_{i=1}^nX_i$
样本方差:$S^2=\frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 = \frac{n}{n-1}M_2$ 其中有$M_2 =A_2 - A_1^2$
样本k阶原点矩:$A_k=\frac{1}{n}\displaystyle\sum_{i=1}^nX_i^k$
样本k阶中心矩:$M_k=\frac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^k$
总体是具有相应概率分布的随机变量。 比如总体$X$,则随机变量X的概率分布就是总体分布。
样本是在保证每个个体有同等机会被抽出时,抽出的一部分个体。是一组随机变量,如$X_1,X_2…X_n$。
样本值不是确定的!只确定了样本容量
简单随机样本:每个$X_i$均与$X$同分布,每个$X_i$均相互独立。这是简化的情况,便于研究和考试。
统计量是样本的函数【因此研究的是该样本组的性质】,是随机变量且不含未知参数。
抽样分布——统计量的分布,虽然难求,但是正态总体中常用的统计量分布已经有了较完整的结果。
我们从总体抽取样本,对这组样本算我们关心的样本的统计量,然后研究这个统计量满足怎样的分布。
卡方分布$\chi^2(n)$
$E = n,D = 2n$;可加性;n>45时,$\chi^2_\alpha(n) \approx n+u_\alpha\sqrt{2n}$
当样本量为1时,$X^2 = \chi^2(1)$
T分布$T \sim t(n)$
对称性 $t_{1-\alpha}(n) = -t_\alpha(n)$ n>45 近似服从$N(0,1)$分布
F分布$F\sim F(n_1,n_2)$
$\frac{1}{F}\sim F(n_2,n_1)$ $F_{1-\alpha}(n_1,n_2) = \frac{1}{F_\alpha(n_2,n_1)}$
抽样分布定理,(虽然只有正态),告诉了我们一些结论,即正态分布抽样后部分统计量的分布是怎样的,我们可以在此基础上加以组合,得到符合三大分布的分布。【给了样本均值、方差的分布,给了一个“样本方差联合分布”、给了两组正态样本的分布、】
这些结论,都来自正态分布的样本,右边俩还要求相互独立。不然一般分布的很难求出来
推导过程在P151
理解上侧分位数:$P(x>,u_\alpha) = \alpha$ $F(\mu_\alpha) = 1-\alpha$
那些带下标的下标,比如$t_\alpha$都指的是令右边的面积为$\alpha$的点。
参数估计是统计推断的基本问题之一。有了样本分布定理,就可以进行统计推断了。
点估计
利用样本,对每一个未知参数 $\theta_i$,按一定的优化原则构造一个统计量 $\hat{\theta}_i(X_1,…,X_n)$ !作为对参数 $\theta_i$ 的估计,称为估计量
当样本值确定后,带入统计量,就能得到具体数值 $\hat{\theta}_i(x_1,…,x_n)$即估计值。
矩估计:
以样本矩直接作为相应总体矩的估计,样本矩的函数作为相应总体矩同一函数的估计
(由辛钦大数定理知样本矩依概率收敛于总体矩,这也是李航那本书的经验收敛于期望吧。)。
基本假设:总体X分布为$f(x;\theta_1,…,\theta_m)$,各阶矩均存在。
如果题目没给矩,那就先算总体的各阶矩 = xxx,然后再反过来表示。【也可以用$\overline{X}$】
对总体方差的矩估计$M_2$ = $\frac{n-1}{n}\cdot S^2$并不是无偏估计。$\mu = \gamma_1\ 、\sigma^2 =\gamma_2-\gamma_1^2$ 可以分别直接用$\overline{X}$和$M_2$替换。
有如泊松分布的情况,一个参数$\lambda$有两个不同矩估计,原则:估计量的优良性标准,一般选用低阶矩
最大似然估计法——MLE
有些分布不存在的数学期望,自然不存在高阶矩,而最大似然是重要而普适的。
按照最大可能性的准则进行推断,把已经发生的事件,看成最可能出现的事件,认为有最大的概率。
如果是求某个分布的参数估计,就按照分布律/概率密度来求似然函数。【样本不会出现在概率为0的地方,无需讨论。】
给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:
=$\displaystyle\prod_{i=1}^n f(x_i;\theta_1,\theta_2,…,\theta_m)$
他们其实都表示“可能性”的大小,但是一个是已知结果,研究参数的情况,表示对参数的估计;一个是已知参数,研究结果随机变量的情况,研究概率。就像一个二元函数一样,只不过要对输入的参数分两类。
似然函数的主要用法在于比较它相对取值,虽然这个数值本身不具备任何含义。
一般形式上是样本组的联合概率密度函数。
写出似然函数,取对数,然后对每个参数求偏导,求解似然方程组。
- 似然方程组的解不唯一,要进一步判定哪个是最大值点
- 似然函数关于参数导数不存在时,无法得到似然方程组,要用定义【找到使得L最大的一组参数】来求解。
最终将参数用估计值$x_1,x_2…x_n$(有时需假设)来表示,然后再替换成用相应的估计量$X_1,…,X_n$表示。
- 矩法估计参数比较简单,但有信息量损失;极大似然估计法精确度高,但运算较复杂
- 运用两种方法得出的结果不一定相同,哪怕只用一种方法也可能得出多个结果
无偏性:$E(\hat{\theta}) = \theta$ 对θ的所有取值成立,实际意义是无系统误差。(考的概率大)
有效性:$D(\hat{\theta})$对θ的所有取值尽可能小
相合性:设$\hat{\theta}_n =\hat{\theta}_n(X_1,X_2,…,X_n)$,对θ的所有取值,依概率收敛于θ
可以证明,在较为一般的情况下,矩估计、MLE得到的估计量都是相合估计量。
枢轴
首先满足置信度$1-\alpha$,然后尽量缩小区间长度,也就是提高精度。
不光是记住对应的枢轴变量,更要理解推导出置信区间的过程。
结合抽样分布定理理解。
格式里不要忘了写查表得,在置信度为xxx下,置信区间为,,,,
对于单侧,将一个端点换位无穷,另一个端点的$\frac{\alpha}{2}$换成$\alpha$
而在假设检验,我们从另一个角度分类,从各类参数出发构造检验。
对均值估计,已知方差,则都是标准正态。
对均值估计,未知方差,则都是$t$分布【均值差估计时,假设若是$\mu_1-\mu_2=0$记得带入消掉】
对方差估计,都是卡方分布
对方差之比检验,是$F$分布
步骤:作出假设(由题意需假设检验)、构造检验统计量(要写,当$H_0$成立时)、确定拒绝域(原假设的拒绝域为)、对$H_0$判断。(已知,,,,,查表得。。判断。。因此拒绝/结束$H_0$,即认为)
工艺题,保守原则,总是讲$H_0$设为想证明的结论的反面,然后否定$H_0$,比如猜测$\mu_1>\mu_2$
就假设$H_0:\mu_1 \leq \mu_2,H_1:\mu_1 > \mu_2$,再等价成$H_0:\mu_1 = \mu_2$,再否定它。
拒绝域是$t>t_{\alpha}$,这样记:与$H_1$条件中同号 反之同理,关键是$H_1$
$\mu_1 - \mu_2$未知$\sigma_1\ \sigma_2$,需要先检验$H_0:\sigma_1 = \sigma_2$如果方差不相等,不在考虑范围内。相等则两样本t检验法
回归分析和方差分析是数理统计中应用价值很大的两类方法,共同点是研究变量之间的关系。
回归分析着重寻求变量值近似的函数关系。研究相关关系(存在联系,但没达到可以相互确定的程度)
$Y = \mu(x_1,x_2,…,x_k)+\xi$
通常要求随机误差满足:$E(\xi) = 0,D(\xi) = \sigma^2 = E(\xi^2) = E[Y - \mu(x_1,x_2,…,x_k)]^2$
即均值为0,方差存在。方差实际是回归函数近似因变量Y的均方误差。
例题
课本
记得先假设事件,如 A = {}。公式也有分,比如全概率公式、贝叶斯得写出来(由xxx得:列公式=代数字)
P11 古典概型是全概率和贝叶斯的基础。 例1.2.3 到1.2.5
P18 条件概率例题 例1.3.4
P19 例1.3.5 1.3.6 连续乘法 1.3.7
P21 全概率解题结构,要强调xxx构成样本空间得划分。 P23 例1.3.12/13贝叶斯公式。
P46 2.2.8 9 10 泊松分布(因为n较大,p较小,可认为X近似服从参数为$\lambda = np = ?$得泊松分布,于是 先列出二项分布的式子,再约等于泊松的式子)
P56 2.3.9 正态分布
P70 例3.1.6 概念题【注意第四问,设了一个u和v,而不是用原来的x,y】 3.1.7 在求边缘概率密度时要分区间
证明相互不独立时,找一个区间就好,一般找那个二维的非零区间。
P78 3.3.1条件分布率 3.3.2
P80 例3.3.3 注意边缘概率密度范围是一维的,条件概率是二维的。第二问:求条件概率要先求出条件概率密度再积分。
例3.3.4 算联合概率时范围确定。(条件分布率的范围表示时把后面那个变量视为常数,有积分那味道了)
P83-84 离散型随机变量的函数、分布律 先列出函数的可能取值,再列式求和。【二项、泊松、正态】有可加性
P86 求连续随机变量的函数及其概率密度(此时,要对y的范围进行讨论,但最终y要取满R)但最终进行求导时不变(除了合并)
P88-93 例3.4.8利用公式法,注意x,y范围是一一对应的。
三大特殊分布。和分布,如果X,Y是相互独立的,可以拆成边缘分布律乘积。
例3.4.12 转到x,z平面,确定积分限。 例3.4.13 转到y,z平面,确定积分限。(这个独立的话也可以拆)
通过这俩例子也能看到题给条件是联合概率/边缘概率时分别如何处理。
P107 例 4.1.7 4.1.8 二维随机变量的联合函数的方差
P131 切比雪夫例子
P136-138 中心极限定理例子
P151 推导$S_w$的过程,好好掌握,免得暴雷。
P158 矩估计,一般是利用E和D的式子来连接。还有$E(X^2)$
P160-161 对于某种分布的情况,似然函数借助分布律/概率密度进行构造。
很有可能考无偏性,其实是考察对E、D性质的掌握,看学解历年真题
P169-173 几种枢轴变量
P175 单侧置信区间,一定要写 **若$H_0$立,检验统计量….. 故在显著性水平0.05下接受$H_ 0$ **
课件
1.3 例9 10 11 12(解法2) 14 15
1.4 全概率、贝叶斯 例5 例6 例8 9贝叶斯要算出全部的再比较
2.1 最后 例3 例4(右连续)
2.3 例6 指数分布,最后一题正态
3.1 例3.1.5
3.3 条件分布率 例1 例3 例4 根据边缘概率的区间,对条件概率分段(因为条件概率也是二维的,需要二维约束)。
3.4 例3.4.7,一个自定义的分段随机变量的函数,画图来讨论范围。第二问用定义来做。3.4.8-最后,多练练。
4.1 下面练习$X,Y \sim N(0,\frac{1}{2})$,则$E(|X-Y|)=\sqrt{\frac{2}{\pi}}$
例4.1.7 4.1.8 利用数学期望的性质(主要是可加性)进行问题求解。【尤其是4.1.8的分解方式,保持独立、一致】
例4.2.3 进一步求$|X-Y|$的方差。
4.3 例4.3.4 求cov,转了一层 4.3.6(算一堆均值)
例4.3.7 利用了E D Cov的性质,挺不错
5.1 例5.1.2 5.1.3 将题给的数转化成$E(X)$的形式,凑出切比雪夫形式。
5.2 例5.2.2-5.2.4 5.2.3的设变量方式值得学习
6.2 6.2.4 6.2.5 类似的推导,用U,V来描述过程。
7.1 例7.1.2(最后超牛) 7.1.3 7.1.4 最后那个均匀的处理。【极大似然格式,掌握好】
8.1 最后一题,二项分布结合假设检验
8-2 研究正常男、女红细胞X2,要假设随机变量,
4-5习题课
11 停车次数
8 求类似的一般不用切比雪夫,用中心极限定理。还有后面的车间机床
求 X 和Y 的联合分布指的是求联合分布律或密度
设新变量$e^{X_k}$,算出均值为2,用辛钦大数定律。
6-9习题课
最后5道选择挺有意思。
历年真题
第一套:第三题、似然估计题(如果似然函数的分布律/分布函数是一个常数,那就要分析取值范围,一般取x的俩极值)
第二套:还是狗日的第三题,第四题这种处理,先变成大正态,同乘同除处理。最后回归,如果题目没给均值,同乘n
作业册
P11、13、15最下面
P22_11、13、15、16、19、23(离散结合连续)题
P32_10、11
P37_6、7、8
P40_3、5、6 先确定统计量的分布,或处理后确定分布
P44_4、6
P59_12