Python计算任意数据的分布函数(累积概率函数CDF)与概率密度(PDF),并绘图
计算分布函数(也称累积概率函数CDF)python代码如下:import numpy as npdata = np.random.randn(200) # 随机生成一些数# 一个公式即可计算出概率函数cdf_value = 1. * np.arange(len(data)) / (len(data) - 1)
·
分布函数求导就是概率密度,在任意的数据中由于数据分布不确定,所以严格来讲这些数据是没有分布函数和概率密度函数的,但是我们就是想得出那种结果,画出那种曲线,这里就需要借助scipy.stats.relfreq
这个方法,它可以拟合这样的结果
得到CDF、PDF曲线对应的值
需要导包:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
-
首先构造数据:
data = np.random.normal(0,10,100) # 生成100个随机数,这里生成正态分布,任意分布都行,正态分布效果更明显一些 res_freq = stats.relfreq(data, numbins=20) # numbins 是统计一次的间隔(步长)是多大
-
概率密度PDF
pdf_value = res_freq.frequency
-
累积分布CDF
cdf_value = np.cumsum(res_freq.frequency)
开始绘图
首先确定横坐标,这里横坐标需要使用线性计算计算得出,不能直接调属性:
x = res_freq.lowerlimit + np.linspace(0, res_freq.binsize * res_freq.frequency.size, res_freq.frequency.size)
PDF的图像
plt.bar(x, pdf_value, width=res_freq.binsize)
CDF的图像
plt.plot(x, cdf_value)
完整代码
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
# 构造数据
data = np.random.normal(0,10,100)
res_freq = stats.relfreq(data, numbins=100)
# 计算结果
pdf_value = res_freq.frequency
cdf_value = np.cumsum(res_freq.frequency)
# 绘图
x = res_freq.lowerlimit + np.linspace(0, res_freq.binsize * res_freq.frequency.size, res_freq.frequency.size)
plt.bar(x, pdf_value, width=res_freq.binsize)
plt.plot(x, cdf_value)
参考资料
更多推荐
已为社区贡献75条内容
所有评论(0)