使用python读取1TB HDFS csv文件的有效方法是什么?

时间:2018-05-04 18:05:31

标签: python hadoop pyspark hdfs

我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗?

1 个答案:

答案 0 :(得分:0)

您可以使用PySpark Python API for Spark。它允许您使用Spark来利用群集资源。我建议使用较小的1 TB文件块,然后测试你的代码。如果一切看起来都不错,那么您可以在更大的数据集上提交作业。

如果使用Spark:根据您在群集上的内存量,请考虑在计划重复使用的内存中缓存RDDs。这将加快你的工作执行速度。