我有一个csv文件集合,可以使用pyspark-sql进行读取,过滤和写入。我想记录有关为监视目的而处理的数据量的信息。
我尝试使用累加器来执行此操作,但是将计数插入正确的位置非常棘手。使用SparkListeners似乎是错误的(内部API,并且pyspark对此非常有用)。 但是该信息在Spark-UI上可用?!? 大概执行者可以在存在之前通过rest API进行查询,但这也很奇怪。
df = sqlContext.read.csv("/path/xyz-20190131*.csv")
filtered = df.filter(some_filter_function)
res = filtered.write.partitionBy(["year", "month", date"]).parquet("/path/parquet/)
print res
None
理想情况下,我希望镶木地板功能返回一个类似于Spark-UI中呈现的工作统计数据结构。