我有一个数据框如下。它包含hdfs文件路径。我想读取值,然后读取文件的内容。在没有任何嵌套RDD利用并行处理的情况下解决此问题的最佳方法是什么。我正在使用Scala 2.11和Spark 2.1
+--------------------+
| value|
+--------------------+
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
+--------------------+
根据Ankush回答编辑: 文件很大,无法使用wholeTextFiles读取
谢谢
答案 0 :(得分:0)
您可以使用
sc.wholeTextFiles("path/to/all/file")
它生成一个配对RDD key
=> filepath
和value
=> content of file
希望它有所帮助!