Pyspark数据分布

时间:2015-06-18 12:20:05

标签: python csv pyspark

我有1000个csv文件,可以使用spark中提供的map函数并行处理。我在群集中连接了两个桌面,我正在使用pyspark shell进行计算。我将csv文件的名称传递给map函数,该函数根据名称访问文件。但是,我需要将文件复制到从属设备以使进程正常运行。这意味着必须有另一个系统上所有csv文件的副本。请建议备用存储,同时避免数据传输延迟。

我还尝试将这些文件存储到三维数组中,并使用parallelize命令生成RDD。但这会导致内存不足错误。

1 个答案:

答案 0 :(得分:1)

您可以使用spark-csv加载文件 https://github.com/databricks/spark-csv

然后您可以使用dataframe概念来预处理文件。 由于它有1000个csv文件,如果它们之间有一些链接,请使用spark-sql对它们运行操作,然后提取输出以进行最终计算。

如果这不起作用,您可以尝试在HBase或Hive中加载相同的内容然后使用spark来计算,我在单节点集群中检查了100 gb的csv内容。 这可能会有所帮助