PySpark toPandas功能正在更改列类型

时间:2020-03-24 16:38:28

标签: python pandas apache-spark pyspark

我有一个具有以下架构的pyspark数据框:

root
 |-- src_ip: integer (nullable = true)
 |-- dst_ip: integer (nullable = true)

通过toPandas()将此数据帧转换为熊猫时,列类型从spark中的整数更改为float中的熊猫:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9847 entries, 0 to 9846
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   src_ip  9607 non-null   float64
 1   dst_ip  9789 non-null   float64
dtypes: float64(2)
memory usage: 154.0 KB

有什么办法可以用toPandas()保留整数值,或者我只能在结果熊猫数据框中强制转换列类型?

1 个答案:

答案 0 :(得分:1)

SPARK-21766(https://issues.apache.org/jira/browse/SPARK-21766)解释了您观察到的行为。

作为一种解决方法,您可以在toPandas()之前调用fillna(0):

df1 = sc.createDataFrame([(0, None), (None, 8)], ["src_ip", "dest_ip"])
print(df1.dtypes)

# Reproduce the issue
pdf1 = df1.toPandas()
print(pdf1.dtypes)

# A workaround
pdf2 = df1.fillna(0).toPandas()
print(pdf2.dtypes)