标签: apache-spark
JavaRDD<String> input = sc.textFile("data.txt");
对于Spark中的上述示例代码,我知道它返回分布式字符串列表。但该列表中的单个字符串是data {.txt的line或word令牌?
line
word
答案 0 :(得分:1)
rdd中的字符串等于data.txt中的一行。
rdd
如果data.txt文件中的数据是某种类型的csv数据,您可以使用spark-csv包将数据拆分为列,这样您就不必解析自己排队。
spark-csv