Question

我正在Windows 10上工作。我安装了spark，目标是使用pyspark。我已完成以下步骤：

在系统变量下，我设置了以下变量：

最后，在系统路径下，我添加了：

在终端机中：

所以我想知道为什么收到此警告：

unable to load native-hadoop library... And why I couldn't bind on port 4040...

最后，在Jupyter Notebook内，尝试写入Parquet文件时出现以下错误。此图显示了一个有效的示例，下一个显示了有错误的代码：

这是磁盘上的DataMaster__3.csv：

还有DaterMaster_par2222.parquet：

非常感谢任何帮助！

Answer 1

如果您以csv格式编写文件，我发现最好的方法是使用以下方法

LCL_POS.toPandas().to_csv(<path>)

还有另一种直接保存它而不转换为熊猫的方法，但是问题是它最终被分成多个文件（名称很奇怪，所以我倾向于避免使用这些名称）。如果您愿意分割文件，我认为写一个镶木地板文件会更好。

LCL_POS.repartition(1).write.format("com.databricks.spark.csv").option("header", "true").save(<path>)

希望能回答您的问题。