Question

您好我只想知道如何在Spark Python中保存AsTextFile而不使用括号和制表符分隔。实施例

  ('123', 2),('345', 3),('567', 9) to a file-> 
    123   2
    345   3
    567   9

我知道有一种使用C风格打印的方式，如：（％c＆＃39; \ t＆＃39;％i，（v1，v2））

提前致谢！

Answer 1

您可以执行映射以使其以制表符分隔，然后您可以轻松使用saveAsTextFile方法，如下例所示。

rdd = sc.parallelize([('123', 2),('345', 3),('567', 9)])
rdd.map(lambda x: "%s\t%s" %(x[0],x[1])).saveAsTextFile("output")

Answer 2

这项工作也是：

>>> rdd.map(lambda (k, v): "{0},{1}".format(k, v)).saveAsTextFile("path")

Answer 3

如果您使用SPARK DataFrame，您可以使用如下的写入格式：

spark

变量pyspark.sql.session.SparkSession是您的def histogram (list): for i in list: print('*' * i) histogram([1,2,3,4,5,4,3,2,1])。