将rdd行转换为一列

时间:2018-03-16 07:19:05

标签: python dataframe spark-dataframe rdd

我正在尝试将所有值从Rows转换为Columns。我没有索引,所以很难将所有索引都放在一列中。

代码:获取值

darken($brand-primary, 10%);

这是我从上面的代码获得的数据:

traceFilters = sqlContext.read.format("csv").options(header='true', delimiter = ',').load("/data/*.txt")

traceFilters.take(5)
fields = [
 StructField("City", StringType(), False),
 StructField("Country", StringType(), False)
]

traceFilters.track(5)

for row in traceFilters.rdd.collect():
    a =  row.City
    print a

和我想要的结果。

New York London Vienna

我尝试使用[ New York, London, Vienna ],但它不起作用,也使用transpose。 我试过的代码:

zip

print a.transpose()

任何帮助表示感谢。

由于

1 个答案:

答案 0 :(得分:1)

看起来你只是打印每个值,但你真的想要一个列表。这会将每个值附加到列表中,然后打印出来:

traceFilters = sqlContext.read.format("csv").options(header='true', delimiter = ',').load("/data/*.txt")

traceFilters.take(5)
fields = [
 StructField("City", StringType(), False),
 StructField("Country", StringType(), False)
]

traceFilters.track(5)

a = []
for row in traceFilters.rdd.collect():
    a.append(row.City)
print(a)