应用错误收集

如何在pyspark中加载数据期间在Hbase数据帧中实现过滤？

时间：2018-08-15 06:25:37

标签： python-3.x apache-spark pyspark apache-spark-sql hbase

我正在使用Hbase在pyspark中加载非常大的数据集。现在，我只想为某些用户加载特定的ID号。我不想加载整个数据集，然后使用过滤器，因为这将花费太多时间。还有其他方法吗？例如以选项或格式实施过滤？

df = sqlc.read\
.options(catalog=catalog)\
.format('org.apache.spark.sql.execution.datasources.hbase')\
.load()

谢谢。

0 个答案:

没有答案