Question

我试图从一个标签分隔的文本文件中逐行读取一个大的双打矩阵。这是在Scala / Apache Spark。

如果我执行以下操作：

val obs = sc.textFile（＆＃34; path_to_text_file＆＃34;）

我得到了：org.apache.spark.rdd.RDD [String]

然而，要求是具有向量的RDD。你能帮忙吗？

谢谢和问候，

Answer 1

这样的事可能适合你：

final val SEPARATOR_AS_REGEX = ";"//Replace it with your separator regex
obs.map(line => line.split(SEPARATOR_AS_REGEX).map(
    //Parse the individual elements
    arr => arr.map(s => parseDouble(s))
  ).map(ds => new DenseVector(ds)))//Convert to the expected type

从文本文件中读取矩阵作为向量的RDD

1 个答案: