如前所述,有一些文件存储在HDFS中。
sc.textFile
方法无法正确读取它们,但hadoop fs -text
可以。
sc.textFile("hdfs://destinationFile...")
。首先会返回凌乱的代码。
messycode return from sc.textFile().first.png
有任何帮助吗?
答案 0 :(得分:0)
您的hadoop shell客户端和spark使用不同的解压缩编解码器读取文件。尝试使用正确的扩展名重命名文件 参考:Reading Compressed Data With Spark Using Unknown File Extensions