我有一个动态生成的大文件,下面给出了一个小样本:
ID,FEES,I_CLSS
11,5555,00000110
12,5555,654321
13,5555,000030
14,5555,07640
15,5555,14550
17,5555,99070
19,5555,090090
我的问题是,在此文件中,我将始终有一个以I_CLSS
开头的列,例如0
。我想将文件I_CLSS
列读取为SparkType数据类型为StringType。
为此,在python中,我可以做类似的事情,
df = pandas.read_csv('INPUT2.csv',dtype={'I_CLSS': str})
但是pyspark中有此命令的替代方法吗?
我了解可以在Pyspark中手动指定文件的架构。但是,对于动态生成列的文件,将很难做到。
因此,如果有人可以帮助我,我将不胜感激。