从PySpark中的HDFS读取* .XLSX文件

时间:2017-11-15 16:03:42

标签: pyspark hdfs xlsx

如何在PySpark中从HDFS读取xlsx文件?一种方法是将其转换为csv文件,但我有很多文件,我正在寻找其他方法。

2 个答案:

答案 0 :(得分:1)

我认为你不能使用标准的火花库来做到这一点。您可能希望将此作为替代方案 - https://github.com/crealytics/spark-excel

答案 1 :(得分:0)

实际上,您可以使用SparkFiles直接阅读它们:

# spark is a SparkSession instance
from pyspark import SparkFiles

spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
    do_whatever(handle)