标签: python hadoop pyspark hdfs
我有一个放在HDFS中的文件。我想知道使用python读取文件的有效方法是什么。我可以使用pyspark吗?
答案 0 :(得分:0)
您可以使用PySpark Python API for Spark。它允许您使用Spark来利用群集资源。我建议使用较小的1 TB文件块,然后测试你的代码。如果一切看起来都不错,那么您可以在更大的数据集上提交作业。
PySpark
Python API for Spark
Spark
如果使用Spark:根据您在群集上的内存量,请考虑在计划重复使用的内存中缓存RDDs。这将加快你的工作执行速度。
RDDs