在PySpark

时间:2018-07-17 12:48:12

标签: python apache-spark pyspark

我有一个动态生成的大文件,下面给出了一个小样本:

ID,FEES,I_CLSS
11,5555,00000110
12,5555,654321
13,5555,000030
14,5555,07640
15,5555,14550
17,5555,99070
19,5555,090090

我的问题是,在此文件中,我将始终有一个以I_CLSS开头的列,例如0。我想将文件I_CLSS列读取为SparkType数据类型为StringType。

为此,在python中,我可以做类似的事情,

df = pandas.read_csv('INPUT2.csv',dtype={'I_CLSS': str})

但是pyspark中有此命令的替代方法吗?

我了解可以在Pyspark中手动指定文件的架构。但是,对于动态生成列的文件,将很难做到。

因此,如果有人可以帮助我,我将不胜感激。

0 个答案:

没有答案