从csv文件中加载字段,该文件的key:value对用逗号分隔,并且字段顺序不一致

时间:2018-08-27 09:55:57

标签: pyspark-sql

我有一个用逗号分隔的csv文件。 我想使用PySpark通过基于特定字段的值过滤将某些字段加载到DataFrame中。这样我以后就可以使用它进行SQL查询了。 注意:列的顺序不一致。缺少某些列。我想通过使该列为空来使其一致。

例如:

Name=N1,Place=P1,Age=10,school=s1, class=fifth, Div=A
Name=N2,Place=P2,Age=11,school=s2, Div=A
Name=N3,Age=10,school=s1, class=fifth 

在这里我想将Age,Class和Div字段加载到Age = 10或11的DataFrame中。即

Age=10,Class=fifth, div=A
Age=11,,div=A
Age=10,class=fourth,,

注意:如果没有列,则该列应留空。在上面的示例中,第二行没有Class的数据,因此留空。

提前谢谢

0 个答案:

没有答案