Question

我已经查看了关于在pyspark中安装GMM的链接https://spark.apache.org/docs/latest/mllib-clustering.html。我在python中成功执行了相同的操作，但经过几次迭代后，我无法在pyspark中运行。

我的问题如下; 1.上述链接＆amp;另一个在我检查的pyspark中拟合GMM的例子，取一个没有列标题的txt文件。我有一个17列的csv。代码是，

data = sc.textFile("..path/mydata.csv")
parsedData = data.map(lambda line: array([float(x) for x in line.strip().split(' ')]))

这很有效，但是当我试图让GaussianMixture.train指定某些组件时，它无效。

感谢。