找出给定数据集的概率,我可以说它是坏的概率

时间:2013-10-07 04:43:56

标签: probability probability-theory

我遇到有数据集的问题。在那里我有好的和坏的类别,在那个类别中,很少有元素可以是好的和坏的....

你可以看到我附上的静脉图,以获得一个视图和我拥有的数据集。如果你能帮帮我的话,请你真高兴。

enter image description here enter image description here

我对概率和数学方面很陌生,但我有一个项目要做,在中间我必须找到一种方法来说明给定的数据集是坏的还是好的,具体取决于数据。

我可以使用什么概率论? 如何使用...请使用我的数据集给出一个例子。三江源

EG。如果我得到A,D,E元素的数据集那么......我可以说它是坏的概率。

1 个答案:

答案 0 :(得分:0)

给出好/坏结果的函数称为分类函数。对于任何数据集,有许多方法可以构建分类函数。例如,参见Brian Ripley的“模式识别和机器学习”。

一种易于理解的方法是所谓的二次判别式。很容易描述:(1)为每个类别(好的,坏的等)构建高斯密度。 (2)输出新输入概率最大的类别。

(1)只计算每个类别中数据的均值和协方差矩阵。这给你p(x | category)。

(2)选择p(category | x)最大的类别。注意p(类别| x)= p(x |类别)p(类别)/ sum_i(p(x | category_i)p(category_i)),其中p(类别)只是(类别中的数据数)/(数字)所有数据)。如果使用对数,则可以稍微简化计算。

这样的函数可以用很少的编程语言来构造,它具有矩阵运算,例如Octave或R.