删除在pyspark中使用numpy.savetxt创建的csv文件

时间:2017-04-25 11:00:25

标签: python numpy pyspark

我是pyspark和python的新手。 使用numpy.savetxt("test.csv",file,delimiter=',')在本地系统中保存文件后 我正在使用 os 删除该文件。 os.remove("test.csv")。我收到错误 java.io.FileNotFoundException文件文件:/someDir/test.csv不存在。文件numpy.savetxt()创建仅具有读取权限的文件。如何使用读写权限保存相同内容。 使用spark版本2.1

1 个答案:

答案 0 :(得分:1)

看起来你的火花工人无法访问该文件。您可能正在不同服务器上运行主服务器和工作服务器。当您尝试处理文件时,在不同机器上安装工作人员时,请确保这些工作人员可以访问该文件。您可以在完全相同的位置的所有工作人员中保留相同的文件副本。总是建议使用像Hadoop这样的DFS,例如" hdfs:// path / file"。当你这样做时,工人可以访问这些文件。 更多细节: Spark: how to use SparkContext.textFile for local file system