为了举例,我们可以说这是我的代码......
sc, sqlContext = setupSparkContext(n_executors=2, n_cores=2, memory='10G')
sq = HiveContext(sc)
data = sq.sql(" SELECT * FROM database.table d WHERE d.gender = M)
我注意到这种方法往往占用大量缓存。是否有更好的方法来加载相同的数据?
我知道我的问题非常通用但我没有更具体的想法。只是寻找想法。