我有一个用逗号分隔的csv文件。 我想使用PySpark通过基于特定字段的值过滤将某些字段加载到DataFrame中。这样我以后就可以使用它进行SQL查询了。 注意:列的顺序不一致。缺少某些列。我想通过使该列为空来使其一致。
例如:
Name=N1,Place=P1,Age=10,school=s1, class=fifth, Div=A
Name=N2,Place=P2,Age=11,school=s2, Div=A
Name=N3,Age=10,school=s1, class=fifth
在这里我想将Age,Class和Div字段加载到Age = 10或11的DataFrame中。即
Age=10,Class=fifth, div=A
Age=11,,div=A
Age=10,class=fourth,,
注意:如果没有列,则该列应留空。在上面的示例中,第二行没有Class的数据,因此留空。
提前谢谢