应用错误收集

什么是将数据加载到PySpark脚本的最有效方法？

时间：2017-10-19 16:41:52

标签： hadoop apache-spark pyspark apache-spark-sql

为了举例，我们可以说这是我的代码......

sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)

我注意到这种方法往往占用大量缓存。是否有更好的方法来加载相同的数据？

我知道我的问题非常通用但我没有更具体的想法。只是寻找想法。

0 个答案:

没有答案