如何在pyspark中加载数据期间在Hbase数据帧中实现过滤?

时间:2018-08-15 06:25:37

标签: python-3.x apache-spark pyspark apache-spark-sql hbase

我正在使用Hbase在pyspark中加载非常大的数据集。 现在,我只想为某些用户加载特定的ID号。 我不想加载整个数据集,然后使用过滤器,因为这将花费太多时间。 还有其他方法吗? 例如以选项或格式实施过滤?

df = sqlc.read\
.options(catalog=catalog)\
.format('org.apache.spark.sql.execution.datasources.hbase')\
.load()

谢谢。

0 个答案:

没有答案