概率为哪个WEKA分类器?

时间:2015-11-18 09:27:42

标签: java classification weka probability

我有以下问题: 我有一个数据集(arff),有存储:字符,密钥保持时间,用户。 因此,有了这些信息,我必须计算一个人在键盘上打字的概率。

如果某人在键盘上打字,将提取与上述相同的信息(用户,密钥保持时间,用户),并且将进行比较"与arff文件。结果应该如下:我有一个用户数据集" John"在arff文件中。之后,一个用户输入他的用户名" John"并写一个文字。结果应该是用户" Johns"打字等同于" John"的数据集。存储在arff中。 90%是正确的人,约90%是约翰。

我希望,我可以解释我的问题。我的问题是,在这种情况下我应该采用哪种分类器?我是用IBK做的,但如果我有15个人,概率将被分为15,我的概率很小。 概率取决于arff中存储的人数。或者我应该将结果乘以人数来获得真实概率?

1 个答案:

答案 0 :(得分:1)

注意:分布的所有概率之和必须为1.

在某种程度上,你得到了小概率"当你有更多的课程,但不是因为它除以课程的数量,所以你不会找到你想要的结果与数字类相乘的概率:它不再是概率(它很容易变成> 1)。

你使用IBk获得的概率分布与你想要的不同:它告诉你哪一个,在存储的用户之间,与当前用户更相似(成为John vs Paul的概率vs Sarah等),独自从他说的名字。

您想要的输出是二元分类器的结果,但您需要为您存储的每个用户训练一个分类器。

每个分类器的训练集将类似于您已有的数据集,但(在John的情况下)将有isJohn而不是user,并且此新列将为contanin { {1}}如果true是约翰,user是其他人。

编辑

false

将成为

    character, key holdtime,    user
           90,        150ms,    John
           70,        120ms,   Sarah
          100,        110ms,    Paul

此分类器的输出分布为character, key holdtime, isJohn 90, 150ms, true 70, 120ms, false 100, 110ms, false vs is John

要获得所需的确切输出,您必须为每个存储的用户训练分类器,并根据当前用户所说的名称调用正确的分类器。

关于使用哪种分类器,我认为没有办法知道哪种分类器最适合您的情况。我经常尝试一些分类器并选择最好的分类器