Spark saveAsTextFile选项卡用Python分隔

时间:2017-01-19 15:36:33

标签: python hadoop apache-spark pyspark

您好我只想知道如何在Spark Python中保存AsTextFile而不使用括号和制表符分隔。 实施例

  ('123', 2),('345', 3),('567', 9) to a file-> 
    123   2
    345   3
    567   9

我知道有一种使用C风格打印的方式,如:(%c' \ t'%i,(v1,v2))

提前致谢!

3 个答案:

答案 0 :(得分:0)

您可以执行映射以使其以制表符分隔,然后您可以轻松使用saveAsTextFile方法,如下例所示。

rdd = sc.parallelize([('123', 2),('345', 3),('567', 9)])
rdd.map(lambda x: "%s\t%s" %(x[0],x[1])).saveAsTextFile("output")

答案 1 :(得分:0)

这项工作也是:

>>> rdd.map(lambda (k, v): "{0},{1}".format(k, v)).saveAsTextFile("path")

答案 2 :(得分:0)

如果您使用SPARK DataFrame,您可以使用如下的写入格式:

spark

变量pyspark.sql.session.SparkSession是您的def histogram (list): for i in list: print('*' * i) histogram([1,2,3,4,5,4,3,2,1])