是否可以将Apache Zeppellin的Excel文件读取到PySpark或Pandas Dataframe中?

时间:2019-07-18 14:55:18

标签: apache-spark pyspark cloudera

我在HDFS(/用户/用户名/项目/数据/file.xlsx)中有一个文件,我想将其读取到DataFrame中。 (我不在乎它是PySpark DataFrame还是Pandas,但首选Pandas。)

我正在使用Zeppelin Notebook编写代码。

是否可以从该文件中获取数据?

我已经尝试了以下命令,但没有一个起作用:

  • df = pd.read_excel("/user/username/Project/data/file.xlsx")
  • df = pd.read_excel("hdfs:///user/username/Project/data/file.xlsx")
  • df = pd.read_excel("hdfs://user/username/Project/data/file.xlsx")

2 个答案:

答案 0 :(得分:1)

我认为您不能直接通过熊猫读取存储在hdfs中的文件。

您可能必须:

  • 将文件加载到spark中,然后使用toPandas()

    df = spark.read.format(“ excel”)。load(“ hdfs:xxx”)。toPandas()

  • 使用一些替代方法使熊猫能够直接阅读,如here

  • 所述

答案 1 :(得分:0)

Apache Zeppellin中的Python解释器中的导出和导入命令似乎只能通过“ pd.read_csv”和“ to_csv”模块来实现。