我有以下代码来比较两个发行版:
sns.kdeplot(df['term'][df['outcome'] == 0], shade=1, color='red')
sns.kdeplot(df['term'][df['outcome'] == 1], shade=1, color='green');
看起来像这样:
如何仅绘制两种分布的差异(disA-disB)?当然,它可能包含负值。
答案 0 :(得分:4)
由于两条kde曲线之间的差异不是kde曲线本身,因此您无法使用kdeplot
来绘制差异。
使用scipy.stats.gaussian_kde
可以轻松计算出kde。结果很容易用pyplot绘制。
import numpy as np; np.random.seed(0)
import matplotlib.pyplot as plt
import scipy.stats
a = np.random.gumbel(80, 25, 1000)
b = np.random.gumbel(90, 46, 4000)
kdea = scipy.stats.gaussian_kde(a)
kdeb = scipy.stats.gaussian_kde(b)
grid = np.linspace(0,500, 501)
plt.plot(grid, kdea(grid), label="kde A")
plt.plot(grid, kdeb(grid), label="kde B")
plt.plot(grid, kdea(grid)-kdeb(grid), label="difference")
plt.legend()
plt.show()
请注意,结果实际上只是曲线之间的差异(正如所要求的那样);它完全没有统计学意义。