应用错误收集

我有一个动态生成的大文件，下面给出了一个小样本：

ID,FEES,I_CLSS
11,5555,00000110
12,5555,654321
13,5555,000030
14,5555,07640
15,5555,14550
17,5555,99070
19,5555,090090

我的问题是，在此文件中，我将始终有一个以I_CLSS开头的列，例如0。我想将文件I_CLSS列读取为SparkType数据类型为StringType。

为此，在python中，我可以做类似的事情，

df = pandas.read_csv('INPUT2.csv',dtype={'I_CLSS': str})

但是pyspark中有此命令的替代方法吗？

我了解可以在Pyspark中手动指定文件的架构。但是，对于动态生成列的文件，将很难做到。

因此，如果有人可以帮助我，我将不胜感激。