标签: python-3.x apache-spark pyspark apache-spark-sql hbase
我正在使用Hbase在pyspark中加载非常大的数据集。 现在,我只想为某些用户加载特定的ID号。 我不想加载整个数据集,然后使用过滤器,因为这将花费太多时间。 还有其他方法吗? 例如以选项或格式实施过滤?
df = sqlc.read\ .options(catalog=catalog)\ .format('org.apache.spark.sql.execution.datasources.hbase')\ .load()
谢谢。