Weka预期 - 最大聚类结果说明

时间:2018-04-17 09:57:40

标签: bigdata cluster-analysis weka

我目前有一个非常大的dataset,其中包含2个仅包含字符串的属性。第一个属性包含搜索查询(单个单词),第二个属性具有相应的类别。

所以数据设置如下(搜索查询可以有多个类别):

搜索查询|分类

X | ÿ

X | Z

A |乙

C | ģ

C | ħ

现在我正在尝试使用聚类算法来了解我的数据所包含的不同组。我在某处读到,当使用仅具有字符串的聚类算法时,建议首先使用预期最大聚类算法来了解我需要多少个聚类,然后将其与K-means一起使用。

不幸的是,我对机器学习和Weka来说还是一个新手,所以我不断阅读所有自学的东西。我可能会在这里犯一些非常简单的错误,请耐心等待,请:)

所以我在Weka中导入了dataset的样本(270万行中的100.000行)并使用了EM聚类算法,它给了我以下结果:

=== Run information ===

Scheme:       weka.clusterers.EM -I 100 -N -1 -X 10 -max -1 -ll-cv 1.0E-6 -ll-iter 1.0E-6 -M 1.0E-6 -K 10 -num-slots 1 -S 100
Relation:     testrunawk1_weka_sample.txt
Instances:    100000
Attributes:   2
              att1
              att2
Test mode:    split 66% train, remainder test


=== Clustering model (full training set) ===


EM
==

Number of clusters selected by cross-validation: 2
Number of iterations performed: 14

[135.000 lines long table with strings, 2 clusters and their values]

Time is taken to build a model (percentage split): 28.42 seconds

Clustered Instances

0      34000 (100%)


Log-likelihood: -20.2942

那么我应该从中推断出我应该使用带有k-means的2或34000个簇?

不幸的是,两者似乎都无法使用。我所希望的是,我得到了20个集群,然后我可以单独查看这些集群,以确定在我的数据中可以找到哪种类型的组。在我的数据中,2个集群似乎太低了,而且有大量的类别等,34000个集群对于手动检查来说太过分了。

我不确定我在Weka EM算法设置中是否做错了(现在设置为标准)或者我的数据是否一团糟,如果是这样,我将如何使这项工作成功?

我仍然非常了解这一切是如何运作的,所以任何建议都非常感谢!如果需要更多我的设置示例或其他任何事情只需告诉我,我会为你得到它。如果这更容易,我也可以将此dataset发送给您,但它太大而无法粘贴到此处。 :)

0 个答案:

没有答案