应用错误收集

使用python读取1TB HDFS csv文件的有效方法是什么？

时间：2018-05-04 18:05:31

标签： python hadoop pyspark hdfs

我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗？

1 个答案:

答案 0 :(得分：0)

您可以使用PySpark Python API for Spark。它允许您使用Spark来利用群集资源。我建议使用较小的1 TB文件块，然后测试你的代码。如果一切看起来都不错，那么您可以在更大的数据集上提交作业。

如果使用Spark：根据您在群集上的内存量，请考虑在计划重复使用的内存中缓存RDDs。这将加快你的工作执行速度。