大家好。所以我知道这一定是非常基本的,但是如何正确,准确地绘制一些样本数据的pdf,你知道这些数据来自某些pop。分发,就像您使用rnorm()
或rexp()
生成它一样?
我问的原因是因为我知道很多人使用density()
,然后将其输入plot()
,但density()
函数似乎过于武断而不准确;例如,当它接近来自指数分布的数据的负值时,它是不准确的,该指数分布不具有负。值。
那么有人可以向我推荐一种更精细的方法来完成绘制样本pdf'
答案 0 :(得分:1)
density
函数执行内核密度估计(KDE)。要为数据集找到最佳KDE,您应调整带宽(参数bw
)。这是一篇讨论KDE和带宽选择的论文:http://www.stat.washington.edu/courses/stat527/s13/readings/Sheather_StatSci_2004.pdf
或者对于更简单的方法,您可以尝试使用不同的带宽方法传递给bw
:
https://stat.ethz.ch/R-manual/R-devel/library/stats/html/bandwidth.html
当前默认值" nrd0"是出于历史原因。我发现" ucv"和" bcv"我的数据集效果更好。
答案 1 :(得分:0)
Tensor<type: float shape: [1,12288] values: [93 69 40]...>
Tensor<type: float shape: [1,2] values: [0.49990705 0.500093]>
Tensor<type: float shape: [1,2] values: [0.49977857 0.50022149]>
y_gender_predictions[0]: Female
Tensor<type: float shape: [1,12288] values: [112 84 54]...>
Tensor<type: float shape: [1,2] values: [nan nan]>
Tensor<type: float shape: [1,2] values: [nan nan]>
y_gender_predictions[0]: Male
Tensor<type: float shape: [1,12288] values: [126 106 73]...>
Tensor<type: float shape: [1,2] values: [nan nan]>
Tensor<type: float shape: [1,2] values: [nan nan]>
y_gender_predictions[0]: Male
Tensor<type: float shape: [1,12288] values: [126 108 81]...>
Tensor<type: float shape: [1,2] values: [nan nan]>
Tensor<type: float shape: [1,2] values: [nan nan]>
y_gender_predictions[0]: Male
Tensor<type: float shape: [1,12288] values: [132 112 85]...>
Tensor<type: float shape: [1,2] values: [nan nan]>
Tensor<type: float shape: [1,2] values: [nan nan]>
y_gender_predictions[0]: Male
确实有助于在不合适时处理负值。它可以按以下方式使用:
ggplot
我还会在cross validated
中查看这篇文章