Question

这是我前面几个问题的跟进。这是我正在使用的代码：

import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
import numpy as np
dictOne = {'Name':['First', 'Second', 'Third', 'Fourth', 'Fifth', 'Sixth', 'Seventh', 'Eighth', 'Ninth'],
           "A":[1, 2, -3, 4, 5, np.nan, 7, np.nan, 9],
           "B":[4, 5, 6, 5, 3, np.nan, 2, 9, 5],
           "C":[7, np.nan, 10, 5, 8, 6, 8, 2, 4]}
df2 = pd.DataFrame(dictOne)
column = 'B'
df2[df2[column] > -999].hist(column, alpha = 0.5)
param = stats.norm.fit(df2[column].dropna())   # Fit a normal distribution to the data
print(param)
pdf_fitted = stats.norm.pdf(df2[column], *param)
plt.plot(pdf_fitted, color = 'r')

我正在尝试对数据框中的一列数字进行直方图绘制（我可以做到），但是要覆盖正态曲线……类似于here上的最后一张图。我正在尝试将其用于此玩具示例，以便将其应用于更大的真实数据集。我上面粘贴的代码给了我这张图：

为什么pdf_fitted与该图中的数据不匹配？如何覆盖适当的PDF？

Answer 1

如果希望将其与真实的PDF进行比较，则应使用density=True绘制直方图。否则，您的归一化（幅度）将关闭。

此外，在绘制pdf时，您需要指定x值（作为有序数组）：

fig, ax = plt.subplots()

df2[df2[column] > -999].hist(column, alpha = 0.5, density=True, ax=ax)

param = stats.norm.fit(df2[column].dropna())
x = np.linspace(*df2[column].agg([min, max]), 100) # x-values

plt.plot(x, stats.norm.pdf(x, *param), color = 'r')
plt.show()

顺便说一句，使用直方图比较连续变量与分布并不总是最好的。（您的样本数据是离散的，但是链接使用连续变量）。箱的选择会混淆直方图的形状，这可能导致错误的推断。取而代之的是，ECDF更好地（无选择）说明了连续变量的分布：

def ECDF(data):
    n = sum(data.notnull())
    x = np.sort(data.dropna())
    y = np.arange(1, n+1) / n
    return x,y

fig, ax = plt.subplots()

plt.plot(*ECDF(df2.loc[df2[column] > -999, 'B']), marker='o')

param = stats.norm.fit(df2[column].dropna())
x = np.linspace(*df2[column].agg([min, max]), 100) # x-values

plt.plot(x, stats.norm.cdf(x, *param), color = 'r')
plt.show()

用重叠的PDF绘制直方图

1 个答案: