如何在pyspark数据框中将字符串类型的列转换为int形式?

时间:2017-10-26 13:43:44

标签: python dataframe pyspark

我在pyspark中有数据框。它的一些数字列包含'nan',因此当我读取数据并检查数据帧的模式时,这些列将具有“字符串”类型。如何将它们更改为int类型。我将'nan'值替换为0并再次检查模式,但随后它也显示了这些列的字符串类型。我遵循以下代码:

data_df = sqlContext.read.format("csv").load('data.csv',header=True, inferSchema="true")
data_df.printSchema()
data_df = data_df.fillna(0)
data_df.printSchema()

我的数据如下所示: enter image description here

这里列'Plays'和'drafts'包含整数值,但由于这些列中存在nan,它们被视为字符串类型。

3 个答案:

答案 0 :(得分:31)

from pyspark.sql.types import IntegerType
data_df = data_df.withColumn("Plays", data_df["Plays"].cast(IntegerType()))
data_df = data_df.withColumn("drafts", data_df["drafts"].cast(IntegerType()))

您可以为每列运行循环,但这是将字符串列转换为整数的最简单方法。

答案 1 :(得分:2)

cast替换为NaN之后,您可以使用0(作为int),

data_df = df.withColumn("Plays", df.call_time.cast('float'))

答案 2 :(得分:0)

另一种方法是,如果您有多个字段需要修改,请使用StructField。

例如:

from pyspark.sql.types import StructField,IntegerType, StructType,StringType
newDF=[StructField('CLICK_FLG',IntegerType(),True),
       StructField('OPEN_FLG',IntegerType(),True),
       StructField('I1_GNDR_CODE',StringType(),True),
       StructField('TRW_INCOME_CD_V4',StringType(),True),
       StructField('ASIAN_CD',IntegerType(),True),
       StructField('I1_INDIV_HHLD_STATUS_CODE',IntegerType(),True)
       ]
finalStruct=StructType(fields=newDF)
df=spark.read.csv('ctor.csv',schema=finalStruct)

输出:

之前

root
 |-- CLICK_FLG: string (nullable = true)
 |-- OPEN_FLG: string (nullable = true)
 |-- I1_GNDR_CODE: string (nullable = true)
 |-- TRW_INCOME_CD_V4: string (nullable = true)
 |-- ASIAN_CD: integer (nullable = true)
 |-- I1_INDIV_HHLD_STATUS_CODE: string (nullable = true)

之后:

root
 |-- CLICK_FLG: integer (nullable = true)
 |-- OPEN_FLG: integer (nullable = true)
 |-- I1_GNDR_CODE: string (nullable = true)
 |-- TRW_INCOME_CD_V4: string (nullable = true)
 |-- ASIAN_CD: integer (nullable = true)
 |-- I1_INDIV_HHLD_STATUS_CODE: integer (nullable = true)

这是一个很长的转换过程,但是优点是可以完成所有必填字段。

要注意的是,如果仅为必填字段分配了数据类型,则结果数据帧将仅包含那些已更改的字段。