众数、极差、四分位差、方差、标准差、离散系数 Python求解

数据的离散程度，用来描述一组数据的分散程度。数据离散程度度量的标准和方式有很多，而具体选择哪一种方式则需要依据实际的数据要求进行抉择。常见的有几种：平均数、中位数、众数、四分位差、方差、标准差、离散系数。以下简单解释：众数、极差、四分位差、标准差、方差、离散系数。众数：通俗地理解是一组数中出现次数最多的那个数。极差：极差为数据样本中的最大值与最小值的差值R=max(i)-min(i)，是所有衡量数

9命怪猫

9107人浏览 · 2021-10-26 14:53:20

9命怪猫 · 2021-10-26 14:53:20 发布

数据的离散程度，用来描述一组数据的分散程度。数据离散程度度量的标准和方式有很多，而具体选择哪一种方式则需要依据实际的数据要求进行抉择。

常见的有几种：平均数、中位数、众数、四分位差、方差、标准差、离散系数。

以下简单解释：众数、极差、四分位差、标准差、方差、离散系数。

众数：通俗地理解是一组数中出现次数最多的那个数。

极差：极差为数据样本中的最大值与最小值的差值R=max(i)-min(i)，是所有衡量数据离散程度中最为简单的一种，反应了数据样本的数值范围，是最基本的衡量数据离散程度的方式，受极值影响较大。比如：一群人中，首富的小目标是挣一个亿（10,000W)，最穷的张三的小目标是挣1W。反映了首富和首穷的目标差距为9,999W。

四分位差：即数据样本的上四分之一位和下四分之一位的差值Qd=Qu-Ql，放映了数据集中间50%部分的离散程度，其数值越小表明数据越集中，数值越大表明数据越离散。同时由于中位数位于四分位数之间，故四分位差也放映出中位数对于数据样本的代表程度，越小代表程度越高，越大代表程度越低。

四分位数是将一组数据由小到大（或由大到小）排序后，用3个点将全部数据分为4等份，与这3个点位置上相对应的数值称为四分位数，分别记为Q1（第一四分位数），说明数据中有25%的数据小于或等于Q1，Q2（第二四分位数，即中位数）说明数据中有50%的数据小于或等于Q2、Q3（第三四分位数）说明数据中有75%的数据小于或等于Q3。其中，Q3到Q1之间的距离的差的一半又称为分半四分位差，记为（Q3-Q1）/2

方差、标准差：方差/标准差：方差是各变量与平均值的差的平方和除以总数n-1， $s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}}{n-1}$ 针对分组数据 $s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}f_{i}}{n-1}$ ，方差开根号后为标准差，方差与标准差都能很好的反应数据的离散程度。

离散系数：即变异系数，针对不同数据样本的标准差和方差，因数据衡量单位不同其结果自然无法直接进行对比，为出具一个相同的衡量指标，则进行了离散系数的计算。离散系数为一组数据的标准差与平均数之比 $V_{i}=\frac{s}{\bar{x}}$ 。

以下是Python举例：

import numpy as np
import stats as sts

mylist = [85, 7, 14, 62, 47, 3, 86, 86, 2, 57, 88, 7, 96, 91, 5, 19, 60, 81, 95, 7]

print('和：', np.sum(mylist))
print('平均值：', np.average(mylist))
print('中位数：', np.median(mylist))
try:
    print('众数：', sts.mode(mylist))
except Exception as e:
    print(e)
print('上四分位数：', sts.quantile(mylist, p=0.25))
print('下四分位数：', sts.quantile(mylist, p=0.75))
print('四分位差：', sts.quantile(mylist, p=0.25) - sts.quantile(mylist, p=0.75))
print('极差：', np.max(mylist) - np.min(mylist))
print('标准差：', np.std(mylist))
print('方差：', np.var(mylist))
print('离散系数：', np.std(mylist)/np.mean(mylist))

需要注意：当样本数据中没有找到“众数”，或者通俗地讲：没找到出现次数最多的那个数字。sts.mode抛异常。

【随时补充】