spark sc.textFile是如何工作的?

时间:2016-05-13 10:14:49

标签: apache-spark

JavaRDD<String> input = sc.textFile("data.txt");

对于Spark中的上述示例代码,我知道它返回分布式字符串列表。但该列表中的单个字符串是data {.txt的lineword令牌?

1 个答案:

答案 0 :(得分:1)

rdd中的字符串等于data.txt中的一行。

如果data.txt文件中的数据是某种类型的csv数据,您可以使用spark-csv包将数据拆分为列,这样您就不必解析自己排队。