我们要收集Spark作业执行的详细信息,例如executorMemory,executorRunTime,executorShuffleTime等,这些细节在作业完成后显示在spark的Web UI中。
有几篇与此相关的论文,并创建了100个GB的数据集。以下链接:
https://www.sciencedirect.com/science/article/pii/S1110016818301728
http://shivaram.org/publications/ernest-nsdi.pdf
https://arxiv.org/pdf/1808.06008.pdf
但是,我们找不到它们使用的数据集或数据快照。
在哪里可以找到有关火花作业任务指标的数据?
我们使用sparkMeasure(https://github.com/LucaCanali/sparkMeasure)自己生成数据集,但这花费了太多时间。我们运行了多种算法,例如Kmeans,PageRank,排序,线性回归等,并使用sparkMeasure测量每种任务的指标
# Initialize the spark context.
spark = SparkSession\
.builder\
.appName("PythonPageRank")\
.getOrCreate()
taskmetrics = TaskMetrics(spark)
taskmetrics.begin()
lines = spark.read.text(os.path.join("file:///usr/lib/spark/examples/src/main/python",sys.argv[1])).rdd.map(lambda r: r[0])
.
.
.# some other code
.
.
# Collects all URL ranks and dump them to console.
for (link, rank) in ranks.collect():
print("%s has rank: %s." % (link, rank))
# end task metrics and write details to file
taskmetrics.end()
fp.write(taskmetrics.report())
我无法通过运行程序单独使用Amazon的AWS或Google云生成大量数据。我已经附上了当前数据的屏幕截图。这是在运行spark examples文件夹中提供的pagerank实施后生成的。如果有人可以指出我类似的详尽数据集,那将是非常棒的。预先感谢。