Question

我正在尝试使用函数columnSimilarities（），computeColumnSummaryStatistics（）

特别是本文中提到的columnSimilarities（）函数：

here

我正在使用来自mlib的稀疏矢量列表。

sparse_vectors = []

for cust, group in df.groupby(0):

    i_v = zip(group[1].values, group[2].values)
    i_v = sorted(i_v)
    indices = [x[0] for x in i_v]
    values = [x[1] for x in i_v]
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我收到错误：

AttributeError：'RowMatrix'对象没有属性 'computeColumnSummaryStatistics'

或

AttributeError：'RowMatrix'对象没有属性 'columnSimilarities'

每次我运行这些功能。

与Scala Spark相比，这是PySpark的问题吗？我也无法通过谷歌搜索找到RowMatrix功能的页面。

谢谢

Answer 1

您无法访问这些方法，因为就目前而言（Spark 1.6），这些方法并未在PySpark中实现。

IndexedRowMatrix.columnSimilarities（请参阅SPARK-12041）在当前版本中可用，但要使用它，您必须从源代码构建Spark。

无法在PySpark中访问RowMatrix方法：columnSimilarities（），computeColumnSummaryStatistics（）

1 个答案: