应用错误收集

我有一个用逗号分隔的csv文件。我想使用PySpark通过基于特定字段的值过滤将某些字段加载到DataFrame中。这样我以后就可以使用它进行SQL查询了。注意：列的顺序不一致。缺少某些列。我想通过使该列为空来使其一致。

例如：

Name=N1,Place=P1,Age=10,school=s1, class=fifth, Div=A
Name=N2,Place=P2,Age=11,school=s2, Div=A
Name=N3,Age=10,school=s1, class=fifth

在这里我想将Age，Class和Div字段加载到Age = 10或11的DataFrame中。即

Age=10,Class=fifth, div=A
Age=11,,div=A
Age=10,class=fourth,,

注意：如果没有列，则该列应留空。在上面的示例中，第二行没有Class的数据，因此留空。

提前谢谢