Python判断一组数据是否服从正态分布

前言从文件中获取数据，判断数据是否服从正态分布或者近似服从正态分布。正态分布：也称“常态分布”，又名高斯分布（Gaussian distribution）若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，记为N(μ，σ2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。判断方法KS检验基于累计分布函数的，用于检

nsq1101

16237人浏览 · 2022-01-08 13:39:49

nsq1101 · 2022-01-08 13:39:49 发布

前言

从文件中获取数据，判断数据是否服从正态分布或者近似服从正态分布。

正态分布：也称“常态分布”，又名高斯分布（Gaussian distribution）
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，记为N(μ，σ2)。
其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。
当μ = 0,σ = 1时的正态分布是标准正态分布。

判断方法

KS检验
基于累计分布函数的，用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。

kstest方法：参数分别是：待检验的数据，检验方法（这里设置成norm正态分布），均值与标准差
结果返回两个值：statistic → D值，pvalue → P值
p值大于0.05，为正态分布
H0:样本符合
H1:样本不符合
如何p>0.05接受H0 ,反之

#导入scipy模块
from scipy import stats
import pandas as pd
data = pd.read_excel(r'sale.xls', index_col = False) #读取数据
u = data[u'销量'].mean()  # 计算均值
std = data[u'销量'].std()  # 计算标准差
stats.kstest(data[u'销量'], 'norm', (u, std))

结果展示

KstestResult(statistic=0.16962184456795837, pvalue=1.5900252683896546e-05)

pvalue < 0.05,不符合

画图观测

#导入模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
#导入scipy模块
from scipy import stats

data = pd.read_excel(r'sale.xls', index_col = False) #读取数据

# 构造一组随机数据
s = data[u'销量']

# 画散点图和直方图
fig = plt.figure(figsize = (10,6))
ax1 = fig.add_subplot(2,1,1)  # 创建子图1
ax1.scatter(s.index, s.values)
plt.grid()

ax2 = fig.add_subplot(2,1,2)  # 创建子图2
s.hist(bins=30,alpha = 0.5,ax = ax2)
s.plot(kind = 'kde', secondary_y=True,ax = ax2)
plt.grid()

在这里插入图片描述
从图中观察，不符合，但近似符合。

总结

有些时候需要数据为正态分布才能进行研究，所以要先对数据进行判断一下。如果不满足正态分布，可以对数据进行处理分析。
采用方法为log 取对数，之后再对其进行分析。

data[u'销量'] = data['销量'].apply(lambda x: np.log(x))

针对具体应用场景，近似正态分布也可以采用正态分布相关的方法分析。

点击阅读全文

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

DeepSeek大模型Prompt工程深度实践（开发者空间Notebook版）

华为开发者空间

基于DeepSeek+Dify构建财务报表分析模型

华为开发者空间

华为云亮相 KubeCon Europe 2025，共启云原生下一个十年

华为开发者空间

所有评论(0)

nsq1101

@weixin_45063703

已为社区贡献4条内容

热门标签

运营活动

活动日历查看更多

直播时间 2025-02-26 16:00:00

回放中

华为云 x DeepSeek：AI驱动云上应用创新

华为云开发者联盟

直播时间 2025-01-08 16:30:00

回放中

DTT年度收官盛典：华为开发者空间大咖汇，共探云端开发创新

华为云开发者联盟

直播时间 2024-12-11 16:30:00

回放中

华为云数字人，助力行业数字化业务创新

华为云开发者联盟

直播时间 2024-11-27 16:30:00

回放中

企业数据治理一站式解决方案及应用实践

华为云开发者联盟

直播时间 2024-11-21 16:30:00

回放中

轻松构建AIoT智能场景应用

华为云开发者联盟

Python判断一组数据是否服从正态分布

nsq1101

前言

判断方法

总结

所有评论(0)

nsq1101

登录社区云

华为开发者空间