Google Compute中的Spark saveAsTextFile采用二次时间

时间:2017-04-27 20:03:42

标签: pyspark google-compute-engine

我在Google Compute的Jupyter笔记本上使用PySpark。

我使用saveAsTextFile将文件保存到云存储。问题是,它在文件中的记录数方面花费了二次时间。这个......对于体面的大文件来说效果不好。

我正在使用的命令是

bigFile_save.saveAsTextFile("gs://myBucket/myFolder")

有没有办法更有效地做事?

根据要求,更全面的代码示例

# We start with a ColumnSimilarity matrix. This is upper-triangular,
# so we append the transpose
x1 = columnSim.entries.map(lambda x: x)
x2 = columnSim.transpose().entries.map(lambda x: x)
x3 = (x1 + x2)
distMat= x3.map(lambda p: (p.i,p.j,p.value))

# Save the similarity file. Convert column indicies to meaningful
# names

bigFile_save = distMap.map(lambda p: (names[p[0]],names[p[1]],p[2]))

t1 = time.time()
bigFile_save.saveAsTextFile("gs://myBucket/myFolder")
t2 = time.time()

timeDiff = t2 - t1

考虑到,可能发生的事情是延迟执行:在实际打印输出之前,名称[p [0]]可能无法解析。

0 个答案:

没有答案