这里有一位想成为数据科学家的人,我正在努力理解作为数据科学家,何时以及为什么要使用概率密度函数(PDF)?
分享一个场景和一些指示来了解这个以及CDF和PMF等其他功能将非常有用。从实践的角度知道任何谈论这些功能的书吗?
答案 0 :(得分:3)
概率论对于现代数据科学和机器学习应用非常重要,因为(在很多情况下)它允许人们打开一个黑盒子"并为模型的内部工作提供了一些启示,并且幸运的是找到了将一个糟糕的模型转变为一个伟大模型的必要因素。没有它,数据科学家的工作在他们能够做的事情上受到很大限制。
PDF是概率论的基本构建模块,绝对有必要进行任何类型的概率推理,以及期望,方差,先验和后验等。
StackOverflow上的一些例子,根据我自己的经验,实际问题归结为理解数据分布:
上述问题提供了一些示例,如果您对此感兴趣,可以采取更多示例,并且列表并不完整:
我个人试图尽可能找到概率解释(选择损失函数,参数,正则化,架构等),因为这样我可以从盲目猜测转变为做出合理的决定。
这是非常基于意见的,但至少有几本书值得一提:The Elements of Statistical Learning,An Introduction to Statistical Learning: with Applications in R或Pattern Recognition and Machine Learning(如果您的主要兴趣是机器学习)。这只是一个开始,有数十本关于更具体主题的书籍,如计算机视觉,自然语言处理和强化学习。