(py)spark-sql关于已处理文件/记录的统计信息?

时间:2019-02-06 18:20:32

标签: apache-spark pyspark pyspark-sql

我有一个csv文件集合,可以使用pyspark-sql进行读取,过滤和写入。我想记录有关为监视目的而处理的数据量的信息。

我尝试使用累加器来执行此操作,但是将计数插入正确的位置非常棘手。使用SparkListeners似乎是错误的(内部API,并且pyspark对此非常有用)。 但是该信息在Spark-UI上可用?!? 大概执行者可以在存在之前通过rest API进行查询,但这也很奇怪。

df = sqlContext.read.csv("/path/xyz-20190131*.csv")
filtered = df.filter(some_filter_function)
res = filtered.write.partitionBy(["year", "month", date"]).parquet("/path/parquet/)
print res
None

理想情况下,我希望镶木地板功能返回一个类似于Spark-UI中呈现的工作统计数据结构。

0 个答案:

没有答案