我正在尝试使用函数columnSimilarities(),computeColumnSummaryStatistics()
我正在使用来自mlib的稀疏矢量列表。
sparse_vectors = []
for cust, group in df.groupby(0):
i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))
rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)
我收到错误:
AttributeError:'RowMatrix'对象没有属性 'computeColumnSummaryStatistics'
或
AttributeError:'RowMatrix'对象没有属性 'columnSimilarities'
每次我运行这些功能。
与Scala Spark相比,这是PySpark的问题吗?我也无法通过谷歌搜索找到RowMatrix功能的页面。
谢谢
答案 0 :(得分:2)
您无法访问这些方法,因为就目前而言(Spark 1.6),这些方法并未在PySpark中实现。
IndexedRowMatrix.columnSimilarities
(请参阅SPARK-12041)在当前版本中可用,但要使用它,您必须从源代码构建Spark。