数据的离散程度,用来描述一组数据的分散程度。数据离散程度度量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择。

常见的有几种:平均数、中位数、众数、四分位差、方差、标准差、离散系数。

以下简单解释:众数、极差、四分位差、标准差、方差、离散系数。

众数:通俗地理解是一组数中出现次数最多的那个数。

极差:极差为数据样本中的最大值与最小值的差值R=max(i)-min(i),是所有衡量数据离散程度中最为简单的一种,反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。比如:一群人中,首富的小目标是挣一个亿(10,000W),最穷的张三的小目标是挣1W。反映了首富和首穷的目标差距为9,999W。

四分位差:即数据样本的上四分之一位和下四分之一位的差值Qd=Qu-Ql,放映了数据集中间50%部分的离散程度,其数值越小表明数据越集中,数值越大表明数据越离散。同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度,越小代表程度越高,越大代表程度越低。

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2

方差、标准差:方差/标准差:方差是各变量与平均值的差的平方和除以总数n-1,s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}}{n-1}针对分组数据s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}f_{i}}{n-1},方差开根号后为标准差,方差与标准差都能很好的反应数据的离散程度。

离散系数:即变异系数,针对不同数据样本的标准差和方差,因数据衡量单位不同其结果自然无法直接进行对比,为出具一个相同的衡量指标,则进行了离散系数的计算。离散系数为一组数据的标准差与平均数之比V_{i}=\frac{s}{\bar{x}}

 以下是Python举例:

import numpy as np
import stats as sts

mylist = [85, 7, 14, 62, 47, 3, 86, 86, 2, 57, 88, 7, 96, 91, 5, 19, 60, 81, 95, 7]

print('和:', np.sum(mylist))
print('平均值:', np.average(mylist))
print('中位数:', np.median(mylist))
try:
    print('众数:', sts.mode(mylist))
except Exception as e:
    print(e)
print('上四分位数:', sts.quantile(mylist, p=0.25))
print('下四分位数:', sts.quantile(mylist, p=0.75))
print('四分位差:', sts.quantile(mylist, p=0.25) - sts.quantile(mylist, p=0.75))
print('极差:', np.max(mylist) - np.min(mylist))
print('标准差:', np.std(mylist))
print('方差:', np.var(mylist))
print('离散系数:', np.std(mylist)/np.mean(mylist))

需要注意:当样本数据中没有找到“众数”,或者通俗地讲:没找到出现次数最多的那个数字。sts.mode抛异常。 

【随时补充】

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐