您好我只想知道如何在Spark Python中保存AsTextFile而不使用括号和制表符分隔。 实施例
('123', 2),('345', 3),('567', 9) to a file->
123 2
345 3
567 9
我知道有一种使用C风格打印的方式,如:(%c' \ t'%i,(v1,v2))
提前致谢!
答案 0 :(得分:0)
您可以执行映射以使其以制表符分隔,然后您可以轻松使用saveAsTextFile
方法,如下例所示。
rdd = sc.parallelize([('123', 2),('345', 3),('567', 9)])
rdd.map(lambda x: "%s\t%s" %(x[0],x[1])).saveAsTextFile("output")
答案 1 :(得分:0)
这项工作也是:
>>> rdd.map(lambda (k, v): "{0},{1}".format(k, v)).saveAsTextFile("path")
答案 2 :(得分:0)
如果您使用SPARK DataFrame,您可以使用如下的写入格式:
spark
变量pyspark.sql.session.SparkSession
是您的def histogram (list):
for i in list:
print('*' * i)
histogram([1,2,3,4,5,4,3,2,1])
。