Question

我想制作libsvm格式，所以我将数据帧设置为所需的格式，但我不知道如何转换为libsvm格式。格式如图所示。我希望所需的libsvm类型是用户项：评级。如果您知道在当前情况下该怎么做：

val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString).map { line =>
     val fields = line.split(",")
      (fields(0).toInt,fields(1).toInt,fields(2).toDouble)
}
val user = ratings.map{ case (user,product,rate) => (user,(product.toInt,rate.toDouble))}
val usergroup = user.groupByKey 

val data =usergroup.map{ case(x,iter) => (x,iter.map(_._1).toArray,iter.map(_._2).toArray)}

val data_DF = data.toDF("user","item","rating")

DATAFRAME FIGURE

我正在使用Spark 2.0。

Answer 1

您面临的问题可分为以下几个方面：

将您的评分（我相信）转换为LabeledPoint数据 X 。
以 libsvm 格式保存X.

<强> 1。将您的评分转换为LabeledPoint数据 X

让我们考虑以下原始评级：

val rawRatings: Seq[String] = Seq("0,1,1.0", "0,3,3.0", "1,1,1.0", "1,2,0.0", "1,3,3.0", "3,3,4.0", "10,3,4.5")

您可以将这些原始评分视为coordinate list matrix (COO)。

Spark实现了一个由其条目的RDD支持的分布式矩阵：CoordinateMatrix其中每个条目都是（i：Long，j：Long，value：Double）的元组。

注意：只有当矩阵的两个维度都很大且矩阵非常稀疏时才应使用CoordinateMatrix。 （通常是用户/项目的情况）的收视率。）

import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}
import org.apache.spark.rdd.RDD

val data: RDD[MatrixEntry] = 
      sc.parallelize(rawRatings).map {
            line => {
                  val fields = line.split(",")
                  val i = fields(0).toLong
                  val j = fields(1).toLong
                  val value = fields(2).toDouble
                  MatrixEntry(i, j, value)
            }
      }

现在让我们将RDD[MatrixEntry]转换为CoordinateMatrix并提取索引行：

val df = new CoordinateMatrix(data) // Convert the RDD to a CoordinateMatrix
                .toIndexedRowMatrix().rows // Extract indexed rows
                .toDF("label", "features") // Convert rows

<强> 2。以 libsvm 格式保存LabeledPoint数据

自 Spark 2.0 以来，您可以使用DataFrameWriter执行此操作。让我们创建一个带有一些虚拟LabeledPoint数据的小例子（您也可以使用我们之前创建的DataFrame）：

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))

val df = Seq(neg,pos).toDF("label","features")

不幸的是，我们仍然无法直接使用DataFrameWriter，因为虽然大多数管道组件支持向后兼容以进行加载，但2.0版之前的Spark版本中包含向量或矩阵列的某些现有DataFrame和管道可能需要迁移到新的spark.ml矢量和矩阵类型。

可以在mllib.linalg中找到用于将DataFrame列从ml.linalg转换为org.apache.spark.mllib.util.MLUtils.类型（反之亦然）的实用程序。在我们的示例中，我们需要执行以下操作（对于两个虚拟数据）以及来自DataFrame）的step 1.

import org.apache.spark.mllib.util.MLUtils
// convert DataFrame columns
val convertedVecDF = MLUtils.convertVectorColumnsToML(df)

现在让我们保存DataFrame：

convertedVecDF.write.format("libsvm").save("data/foo")

我们可以查看文件内容：

$ cat data/foo/part*
0.0 1:1.0 3:3.0
1.0 1:1.0 2:0.0 3:3.0

修改：在当前版本的spark（2.1.0）中，不需要使用mllib包。您只需将LabeledPoint数据保存为 libsvm 格式，如下所示：

import org.apache.spark.ml.linalg.Vectors import org.apache.spark.ml.feature.LabeledPoint val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0)) val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))) val df = Seq(neg,pos).toDF("label","features") df.write.format("libsvm").save("data/foo")

Answer 2

为了将现有的转换为类型化的DataSet，我建议以下内容；使用以下案例类：

case class LibSvmEntry (
   value: Double,
   features: L.Vector)

您可以使用map函数将其转换为LibSVM条目，如下所示： df.map[LibSvmEntry](r: Row => /* Do your stuff here*/)

Answer 3

libsvm数据类型特征是一个稀疏向量，您可以使用pyspark.ml.linalg.SparseVector来解决问题

a = SparseVector(4, [1, 3], [3.0, 4.0])

def sparsevecfuc(len,index,score):
    """
     args: len int, index array, score array
    """
    return SparseVector(len,index,score)
trans_sparse = udf(sparsevecfuc,VectorUDT())

如何从DataFrame准备数据到LibSVM格式？

3 个答案: