将文件读入scala spark中的数组列表

时间:2014-03-10 07:19:08

标签: scala hadoop apache-spark

我对spark和scala完全不熟悉。

我想将文件读入数组列表。

这是它在java中的完成方式。

List<String> sourceRecords;
sourceRecords = new ArrayList<String>();
BufferedReader SW;
SW = new BufferedReader(new FileReader(srcpath[0].toString()));
String srcline ;
while ((srcline = SW.readLine()) != null)  {
sourceRecords.add(srcline.toString());
}

如何在火花中的scala中执行此操作

1 个答案:

答案 0 :(得分:5)

这很容易。例如,

val rdd = sc.textFile("your_file_path")
val sourceRecords = rdd.toArray

但是,您无需将rdd转换为Array。您可以像rdd一样操纵Array

您可以在https://spark.incubator.apache.org/examples.html

中找到更多信息