应用错误收集

时间：2019-07-18 14:55:18

标签： apache-spark pyspark cloudera

我在HDFS（/用户/用户名/项目/数据/file.xlsx）中有一个文件，我想将其读取到DataFrame中。（我不在乎它是PySpark DataFrame还是Pandas，但首选Pandas。）

我正在使用Zeppelin Notebook编写代码。

是否可以从该文件中获取数据？

我已经尝试了以下命令，但没有一个起作用：

答案 0 :(得分：1)

我认为您不能直接通过熊猫读取存储在hdfs中的文件。

您可能必须：

将文件加载到spark中，然后使用toPandas（）

df = spark.read.format（“ excel”）。load（“ hdfs：xxx”）。toPandas（）
使用一些替代方法使熊猫能够直接阅读，如here

答案 1 :(得分：0)

Apache Zeppellin中的Python解释器中的导出和导入命令似乎只能通过“ pd.read_csv”和“ to_csv”模块来实现。