什么是将数据加载到PySpark脚本的最有效方法?

时间:2017-10-19 16:41:52

标签: hadoop apache-spark pyspark apache-spark-sql

为了举例,我们可以说这是我的代码......

sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)

我注意到这种方法往往占用大量缓存。是否有更好的方法来加载相同的数据?

我知道我的问题非常通用但我没有更具体的想法。只是寻找想法。

0 个答案:

没有答案