SparkContext无法读取存储在HDFS中的文件,但命令“hadoop fs -text”可以正确读取它

时间:2016-06-08 08:47:53

标签: hadoop apache-spark

如前所述,有一些文件存储在HDFS中。

sc.textFile方法无法正确读取它们,但hadoop fs -text可以。

sc.textFile("hdfs://destinationFile...")。首先会返回凌乱的代码。

messycode return from sc.textFile().first.png

有任何帮助吗?

1 个答案:

答案 0 :(得分:0)

您的hadoop shell客户端和spark使用不同的解压缩编解码器读取文件。尝试使用正确的扩展名重命名文件 参考:Reading Compressed Data With Spark Using Unknown File Extensions