箱线图(箱型图)的主要作用是发现数据内部整体的分布分散情况,包括最小最大值、各分位数、中位数、异常值。

boxplot(x) creates a box plot of the data in x. If x is a vector, boxplot plots one box. If x is a matrix, boxplot plots one box for each column of x.

boxplot(x) 创建 x 中数据的箱线图。 如果 x 是向量,则箱线图绘制一个框。 如果 x 是一个矩阵,boxplot x 每一列绘制一个框。

定义:

第一四分位数 (Q1),又称较小四分位数(下四分位),等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称较大四分位数(上四分位),等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

Q3+1.5IQRQ11.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限,在Q3+3IQRQ13IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值。其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。matlab中boxplot(x)图中不画出内外限。

如何计算中位数、上四分位和下四分位

>> x2 = [1 2 3 4]

>> boxplot(x2')

中位数:(2+3)÷2=2.5

>> x2 = [1;2;3;4]

>> boxplot(x2)

 

>> x2 = [1 2 3 4 40]

>> boxplot(x2')

中位数 3

上四分位13 4 13 40  40-4=36  36÷4=9  4+9=13 ,上四分位13大于最大值4matlab图中不画出最大值。

下四分位1.75 1 1.75 2  2-1=1  1÷4=0.25  2-0.25=1.75

如何计算上限、下限、异常值

>> x1 = [12 12 11 8 15 17 24];

>> boxplot(x1')

上限为16.5+1.5×(16.5-11.25=24.375

其中24小于上限,箱型图如下图。24不属于异常值。

>> x1 = [12 12 11 8 15 17 25];

>> boxplot(x1')

其中25大于上限,箱型图如下图。25属于异常值。

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐