Skip to content

概统总结

概率部分总结

独立性

  • 离散
  • 连续: 密度函数
  • 一个离散一个连续 分布函数 \(F_X(x)F_Y(y)=F(x,y)\)

求期望,积分的时候别忘了乘x

期望和方差

二维正态

\((X,Y)\sim N(\mu_1,\mu_2,\sigma_1,\sigma_2,\rho)\)

\(D(X+Y)\) 转化为协方差的性质

  • 在二维正态前提下,X,Y不相关等价于X,Y不独立

协方差

用定义求

$$ Cov(X,Y)=E(XY)-E(X)E(Y) $$ - 可反过来求\(E(XY)\)

用相关系数\(Cov(X,Y)=\rho\sqrt{D(X)D(Y)}\)

方差没有期望的线性性!: \(E(X\pm Y)=E(X)\pm E(Y)\)

\[ \boxed{ \begin{aligned} D(X+Y)=D(X)+D(Y)\color{cyan}+2Cov(X,Y)\\ D(X-Y)=D(X)+D(Y)\color{cyan}-2Cov(X,Y) \end{aligned} } \]

处理括号中的和式:

\[ \boxed{Cov(X_1\pm X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)} \]

结合\(Cov(X,X)=D(X)\). 如\(Cov(X+Y,X-Y)=D(X)-D(Y)\)

一堆相加的,两两组合,两个独立的协方差为0消去,只剩下少数项

\[ Cov(\bar{X},\bar{Y})=\frac{1}{n^2}Cov(X_1+\dots X_n,Y_1+\dots Y_n)\\ =\frac{1}{n^2}(Cov(X_1,Y_1)+Cov(X_2,Y_2)+\dots)\\ =\frac{1}{n^2}n\rho_{xy}\sqrt{\sigma_x\sigma_y} \]

\(Cov(aX+b,cY+d)=acCov(X,Y)\)

大数定律

中心极限定理

和的分布 近似于正态分布

\[ \begin{aligned} &\sum_{i=1}^n X_i \sim N(n\mu,n\sigma^2)\\ &\frac{1}{n}\sum_{i=1}^n X_i \sim N(\mu,\frac{\sigma^2}{n}) \end{aligned} \]

\(B(n,p)\sim N(np,np(1-p))\)

不管求和的是什么,转化为求\(f(X_i)\)的期望和方差。 注意\(E(f(X))\neq f(E(X))\). 要乘上密度函数积分

参数估计

\(X\)的概率分布 \(f_{\theta}(x)\) 给出测量值\(X_1\dots X_n\), 求参数\(\theta\)(比如\(U(a,b)\)的a,b \(\theta(\lambda)\)\(\lambda\)等)

矩估计

\(\mu_1=\bar{X}\)

极大似然估计

  1. ​ 求\(L(\theta)=\theta(X_1=x_1,X_2=x_2\dots)\)
  2. \(l(\theta)=\log L(\theta)\)
  3. \(dl(\theta)/d\theta=0\)
    1. 若驻点存在 则驻点就是\(\hat{\theta}\)
    2. 若驻点不存在,找\(\theta\)的取值范围,取端点

一些记号 \(X_{(1)}=\min \{ X_i\}\) \(X_{(n)}=\max \{ X_i\}\)

求驻点和单调性结合使用

估计量的评价准则

无偏性准则 \(E(\hat{\theta})=\theta\)

有效性准则\(D(\hat{\theta})\)尽量小

均方误差准则 \(\boxed{Mse(\hat{\theta})=E((\theta-\hat{\theta})^2)=D(\hat{\theta})+(E\hat{\theta}-\theta)^2}\)

  • 注意结合 \(E(\bar{X})=E(X),Var(\bar{X})=\frac{Var(X)}{n}\) 用样本的期望+运算法则 计算参数的期望\方差

相合性 \(\hat{\theta}\overset{P}{\to}\theta\)

  • 大数定律 \(\bar{X}\overset{P}{\to} E(X)\)
  • 最后转化为求\(E(f(X))\). 先求\(f(X)\)分布,再积分

统计量的分布

卡方分布

\(X_i\sim N(0,1),\sum_{i=1}^n X_i^2 \sim \chi^2(n)\)

\[ \boxed{E(\chi^2(n))=n,D(\chi^2(n))=2n} \]

正态总体统计量的分布

\(\bar{X}\sim N(\mu,\frac{\sigma^2}{n}),\boxed{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)}\)

\[ \boxed{\frac{(n-1)S^2}{\sigma^2}=\sum_{i=1}^n (\frac{X_i-\color{cyan}\bar{X}}{\sigma})^2\sim \chi^2(n-1)} \]

\(\boxed{E(S^2)=\sigma^2,D(S^2)=\frac{2\sigma^4}{n}}\)

注意区分\(\sum_{i=1}^n (\frac{X_i-\color{cyan}{\mu}}{\sigma})^2 \sim \chi^2(n)\)

\[ \boxed{\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)} \]

\(\boxed{\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)}\)

构造F还可以用定义

\[ \frac{\chi^2(n_1)/n_1}{\chi^2(n_2)/n_2}\sim F(n_1,n_2). \]

假设检验和区间估计

注意H0是反面,想得到支持的是H1

区间乘过去

待估参数 检验统计量 分布
\(\mu\) (\(\sigma\)已知) \(\boxed{Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}}\) \(N(0,1)\)
\(\mu\)(\(\sigma\)未知) \(\boxed{T=\frac{\bar{X}-\mu_0}{S/\sqrt{n}}}\) \(t(n-1)\)
\(\mu_1-\mu_2\)(\(\sigma_1,\sigma_2\)已知) \(\boxed{Z=\frac{\bar{X}-\bar{Y}}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}}\) \(N(0,1)\)
\(\mu_1-\mu_2\)(\(\sigma_1=\sigma_2\)未知) \(\boxed{T=\frac{\bar{X}-\bar{Y}}{S_w\sqrt{1/n_1+1/n_2}}}\) \(t(n_1+n_2-{\color{cyan}2})\)
\(\sigma\)(\(\mu\)未知) \(\boxed{\chi^2=\frac{{\color{cyan}(n-1)}S^2}{\sigma_0^2}}\) \(\chi^2(n-1)\)
\(\sigma_1,\sigma_2\) \(\boxed{F=\frac{S_1^2}{S_2^2}}\) \(F(n_1-1,n_2-1)\)

拟合优度检验

原假设 \(H_0: X \sim P(\lambda)\)

先根据样本对参数进行极大似然估计得到\(\hat{\lambda}\),根据\(\hat{\lambda}\)得到\(\hat{p_i}\).

拒绝域 \(\boxed{\chi^2=\sum \frac{n_i^2}{n\hat{p_i}}-{\color{cyan}n} \geq \chi^2_{\alpha}(k-r-1)}\)

\(r\)是需要估计的参数个数。

  • 求卡方的时候记得减去n
  • 合并理论频数\(np_i\leq 5\)的项
  • 极大似然估计时,可以先带着变量,不要一开始就把数带进去

Comments