第二章 次数分布与平均数和变异数
1.次数(frequence)分布
(1)意义
定义
由不同区间内变量出现的次数构成的分布
作用
一、初步了解变量的分布特点
二、便于进一步计算和分析
三、化繁为简
(2)步骤
1.求极差
$$R = max(y_1,y_2,y_3,…,y_n) - min(y_1,y_2,y_3,…,y_n)$$
$n$:样本总量
2.确定组数
$k$
3.确定组距
$$i = R/k$$
取整:取小数位数较少的非整数
4.写出分组数列
$$L_1 = min(y_1,y_2,y_3,…,y_n)-i/2$$
$L_1$:第一组的低限
5.统计各区间变量出现的个数
原则
(1)完全
包含所有的观察值
(2)互斥
任意一个观察值只有一个组区,半开半闭区间 [,)
(3)一致
每一个区组组距相等。
(3)次数分布表
分布特点
(1)分布范围
(2)大部分观察值的分布范围(80%)
(3)分布的对称性和中心
连续性变量(continuous variable)
在任意两个观察值之间能出现具有微小差异的第三个观察值的一类变量。
间断性变量(discrete variable)
只能取整数的变量(每株穗数、每穗粒数)
(4)次数分布图
连续性变量(continuous variable)
一、直方图
二、折线图
间断性变量(discrete variable)
一、柱型图
二、饼图
三、散点图
(5)频率分布
频率(relative frequency)
频率分布:不同区间内观察值出现的频率构成的分布。
(6)累计频率分布
定义
指小于指定值的变量(观察值)出现的频率,组区及其累计频率构成的分布。
2.平均数
变量集中性的度量
1.算术平均数
有限总体:$y_1$,$y_2$,$y_3$,…,$y_N$
$$\mu =\frac{ \sum_{i=1}^Ny_i}{N}$$
样本:$y_1$,$y_2$,$y_3$,…,$y_n$
$$\overline{y} =\frac{ \sum_{i=1}^ny_i}{n}=\frac{\sum y}{n}$$
加权平均数
$$\overline{y} = \frac{ \sum_{i =1}^kf_i*y_i}{\sum_{i=1}^kf_i}=\frac{\sum fy}{\sum f}$$
$f_i$:权重(weight)
性质
$\sum_{i=1}^n(y_i-\overline{y})=0$
(1)离均差之和为零
$\sum_{i=1}^n(y_i-\overline{y})^2=SS=min$
(2)离均差之和的平方最小
$SS$:Sum of square
2.几何平均数(G)
平均增长率
$y_1,y_2,y_3,…y_n$
$G = \sqrt[n]{y_1.y_2.y_3…y_n} =(\prod_{i=1}^ny_i)^{\frac{1}{n}}$
$\prod$: 连乘符号
$ \lg G = \frac{1}{n}\lg\prod_{i-1}^ny_i=\frac{1}{n}(\lg y_1+\lg y_2+ …+\lg y_n) = \frac{1}{n}\sum_{i=1}^n \lg y_i$
变量对数的算术平均数的反对数
3.调和平均数(H)
平均速度,平均密度
毛细管长度 | 水位上升($cm/min$) |
---|---|
0-10 | 6 |
10-20 | 4 |
20-30 | 2 |
$H = \frac{10}{\frac{1}{3}.(\frac{10}{6}+\frac{10}{4}+\frac{10}{2})}=\frac{36}{11}$
4.中位数(median)
$Md = L+\frac{i}{f}(\frac{n}{2}-C)$
$L$:中位数所在组的下限
$i$:组距
$f$:中位数所在组的次数
$n$:总次数
$C$:小于中位数所在组的累加次数
5.众数
出现次数最多的观察值
$M_0 = L + \frac{f_2}{f_1+f_2}. i$
$L$ : 次数最多组的下限
$f_1$:次数最多组上方的次数
$f_2$:次数最多组下方的次数
$i$ :组距
2.变异数
离散性质的度量
1.极差
$R$:一组观察值最大值减去最小值
$R = max(y) - min(y)$
2.方差和标准差
总体方差(常数)
$\sigma^2 = \frac{\sum_{i =1}^N(y_i - \mu)^2}{N}$
总体的标准差(常数)
$\sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i =1}^N(y_i - \mu)^2}{N}}$
样本方差(变数)
$s^2 = \frac{\sum_{i =1}^n(y_i - \overline{y})^2}{n-1}=\frac{SS}{n-1}$
自由度:$df$(dgree of freedom)
$df = n-1$
$n$:观察值的个数
$1$: 约束条件的个数
样本方差又称均方:$MS$(mean of square)
样本标准差
$s = \sqrt{\frac{SS}{df}}$
通常用样本方差来估计总体方差
无偏估计
$\overline{y} \longrightarrow \mu$
$s^2 \longrightarrow \sigma^2$
极大似然估计
$s_0^2= \frac{SS}{n}\longrightarrow \sigma^2$
3.变异系数 CV
相对变异的度量
$CV = \frac{s}{\overline{y}}.100$
$SS = \sum(y-\overline{y})^2 = \sum y^2 - \frac{(\sum y)^2}{n}$
$\sum y^2$:原点距
$\frac{(\sum y)^2}{n}$:矫正项
$(y-\overline{y})^2$:中心距
加权方差和加权标准差
$s^2 = \frac{\sum fy^2 - \frac{(\sum fy)^2}{\sum f}}{\sum f -1}$
四分位数
四分位数的计算方法为:将一组数据的n个数从小到大排列
$Q_1$:下四分位数
$Q_2$: 中位数
$Q_3$:上四分位数
4.偏度和峰度
$SK$ (skewness)偏度
$SK = \frac{\overline{y}-\mu_0}{s}$
$SK > 0$:正偏态,右尾长
$SK <0$:负偏态,左尾长
$SK = \frac{\frac{1}{n}.\sum(y-\overline{y})^3}{s^3}$
$K = \frac{\frac{1}{n}(y-\overline{y})^4}{s^4}-3$
与正态分布相比
$K > 0$:相对正态分布更集中
$K < 0$:相对正态分布更分散