我在HDFS(/用户/用户名/项目/数据/file.xlsx)中有一个文件,我想将其读取到DataFrame中。 (我不在乎它是PySpark DataFrame还是Pandas,但首选Pandas。)
我正在使用Zeppelin Notebook编写代码。
是否可以从该文件中获取数据?
我已经尝试了以下命令,但没有一个起作用:
df = pd.read_excel("/user/username/Project/data/file.xlsx")
df = pd.read_excel("hdfs:///user/username/Project/data/file.xlsx")
df = pd.read_excel("hdfs://user/username/Project/data/file.xlsx")
答案 0 :(得分:1)
我认为您不能直接通过熊猫读取存储在hdfs中的文件。
您可能必须:
将文件加载到spark中,然后使用toPandas()
df = spark.read.format(“ excel”)。load(“ hdfs:xxx”)。toPandas()
使用一些替代方法使熊猫能够直接阅读,如here
答案 1 :(得分:0)
Apache Zeppellin中的Python解释器中的导出和导入命令似乎只能通过“ pd.read_csv”和“ to_csv”模块来实现。