无法在PySpark中访问RowMatrix方法:columnSimilarities(),computeColumnSummaryStatistics()

时间:2016-03-30 21:52:42

标签: python hadoop apache-spark pyspark bigdata

我正在尝试使用函数columnSimilarities(),computeColumnSummaryStatistics()

  • 特别是本文中提到的columnSimilarities()函数:
  

here

我正在使用来自mlib的稀疏矢量列表。

sparse_vectors = []

for cust, group in df.groupby(0):

    i_v = zip(group[1].values, group[2].values)
    i_v = sorted(i_v)
    indices = [x[0] for x in i_v]
    values = [x[1] for x in i_v]
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我收到错误:

  

AttributeError:'RowMatrix'对象没有属性   'computeColumnSummaryStatistics'

  

AttributeError:'RowMatrix'对象没有属性   'columnSimilarities'

每次我运行这些功能。

与Scala Spark相比,这是PySpark的问题吗?我也无法通过谷歌搜索找到RowMatrix功能的页面。

谢谢

1 个答案:

答案 0 :(得分:2)

您无法访问这些方法,因为就目前而言(Spark 1.6),这些方法并未在PySpark中实现。

IndexedRowMatrix.columnSimilarities(请参阅SPARK-12041)在当前版本中可用,但要使用它,您必须从源代码构建Spark。