在Spark Scala中将文本文件转换为序列数组格式

时间:2016-01-04 10:05:07

标签: arrays scala apache-spark sequence

我有sample.txt:

1 2 3
1 3 2 1 2
1 2 5
6

如何将其转换为与

相同的序列数组
(Seq( Array(Array(1), Array(2), Array(3)),
      Array(Array(1), Array(3), Array(2), Array(1), Array(2)),
      Array(Array(1), Array(2), Array(5)),
      Array(Array(6) )

我想尝试将文本文件用于prefixSpan mllib Spark,check this

1 个答案:

答案 0 :(得分:3)

尝试:

angular.module('myApp').controller

这实际上会生成一个迭代器(类型为val file = new java.io.File("path/to/sample.txt") Source.fromFile(file).getLines().map(_.split(' ').map(s => Array(s.toInt))) ),但可以使用Iterator[Array[Array[Int]]].toSeq或类似的方式将其转换为序列。

使用Spark(我现在无法检查),这应该是这样的:

.toList