Question

我已经从csv文件创建了一个rdd，第一行是该csv文件中的标题行。现在我想从该rdd创建数据框并保留rdd。的第1个元素的列。

问题是我能够使用rdd.first（）创建数据框和列，但创建的数据框的第一行是标题本身。如何删除？

lines = sc.textFile('/path/data.csv')
rdd = lines.map(lambda x: x.split('#####'))  ###multiple char sep can be there #### or #@# , so can't directly read csv to a dataframe
#rdd: [[u'mailid', u'age', u'address'], [u'satya', u'23', u'Mumbai'], [u'abc', u'27', u'Goa']]  ###first element is the header
df = rdd.toDF(rdd.first())  ###retaing te column from rdd.first()
df.show()
#mailid  age  address
 mailid  age  address   ####I don't want this as dataframe data
 satya    23  Mumbai
 abc      27  Goa

如何避免第一个元素移动到数据帧数据。我可以在rdd.toDF（rdd.first（））中给出任何选项来完成吗？

注意：我无法收集rdd到表单列表，然后从该列表中删除第一个项目，然后将该列表并行化，再次形成rdd然后再到toDF（）......

请建议!!!谢谢

Answer 1

您必须从RDD中删除标题。一种方法是考虑您的rdd变量：

>>> header = rdd.first()
>>> header
# ['mailid', 'age', 'address']
>>> data = rdd.filter(lambda row : row != header).toDF(header)
>>> data.show()
# +------+---+-------+
# |mailid|age|address|
# +------+---+-------+
# | satya| 23| Mumbai|
# |   abc| 27|    Goa|
# +------+---+-------+

pyspark中的RDD到DataFrame（来自rdd＆＃39; s第一个元素的列）

1 个答案: