读取数据框中可用的文件路径,并使用spark读取这些文件的内容

时间:2017-08-08 20:58:51

标签: scala apache-spark dataframe rdd

我有一个数据框如下。它包含hdfs文件路径。我想读取值,然后读取文件的内容。在没有任何嵌套RDD利用并行处理的情况下解决此问题的最佳方法是什么。我正在使用Scala 2.11和Spark 2.1

+--------------------+
|               value|
+--------------------+
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
+--------------------+

根据Ankush回答编辑: 文件很大,无法使用wholeTextFiles读取

谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用

sc.wholeTextFiles("path/to/all/file")

doc link for reference

它生成一个配对RDD key => filepathvalue => content of file

希望它有所帮助!