pyspark中的高斯混合模型

时间:2017-03-24 13:32:09

标签: pyspark gmm

我已经查看了关于在pyspark中安装GMM的链接https://spark.apache.org/docs/latest/mllib-clustering.html。我在python中成功执行了相同的操作,但经过几次迭代后,我无法在pyspark中运行。

我的问题如下; 1.上述链接&另一个在我检查的pyspark中拟合GMM的例子,取一个没有列标题的txt文件。我有一个17列的csv。代码是,

data = sc.textFile("..path/mydata.csv")
parsedData = data.map(lambda line: array([float(x) for x in line.strip().split(' ')]))

这很有效,但是当我试图让GaussianMixture.train指定某些组件时,它无效。

  1. 如果示例中使用的数据没有列标题,我如何判断哪个列来自哪个分布&模式的变化是如何出现的?

  2. 如何从此处获取热图,以便每当有新数据进入时,我都会使用我训练过的模型的热图来判断我的新测试数据的分布模式&可以指出不匹配。

  3. 感谢。

0 个答案:

没有答案