Hadoop上的凝聚聚类和支持向量机

时间:2012-07-02 09:08:35

标签: algorithm hadoop mapreduce machine-learning weka

我想实现一个结合支持向量机的凝聚聚类算法。我想要它的工作方式是这样的:

  1. 使用大量训练数据训练支持向量机分类器。保持训练有素的模型。训练数据实际上是一大组实体。每个实体都是一个数字数组(双精度数)。 SVM将给定对分类为相同/不同。

  2. 给定一大组实体(基本上是双值数组),通过使用训练的SVM将两个最接近的实体(数组)分类为相同/不同的给定实体对。如果它们相同,那么继续进行聚类。

  3. 继续凝聚聚类机制,只要我们看到群集中的每个实体都可以与另一个群集中的每个其他实体配对。

  4. 当我们发现我们有两个集群,其中一个集群中至少有一个实体而另一个集群中存在另一个实体时,结束凝聚集群机制,当给予SVM时,它将被归类为不同的

  5. 将输出群集打印/存储在输出中。

  6. 现在,我已经在一台独立机器上使用WEKA的SVM和Agglomerative Clusterer完成了所有这些工作。在涉及大数据时,我需要在Hadoop之上执行此操作。我知道Mahout包含SVM,但它不包含HAC。

    我。是否可以将WEKA与Hadoop一起使用? II。如果我打算自己在Hadoop中编写HAC,如何将训练好的SVM模型存储在HDFS中,然后将其用于凝聚聚类?我熟悉Hadoop框架。

0 个答案:

没有答案