Question

我有一个熊猫df，它的行数超过一千万。我正在尝试使用以下方法将此熊猫df转换为spark df。

spark_session = SparkSession.builder.appName('pandasToSparkDF').getOrCreate()
# Pandas to Spark
spark_df = spark_session.createDataFrame(pandas_df)

此过程需要大约9分钟的时间才能将pandas df转换为Databricks上的1000万行df。太长了。

还有其他方法可以更快地转换它吗？

谢谢。感谢帮助。

Answer 1

您使用了什么驱动程序节点大小？

还有一件事，你这样做吗？

import numpy as np
import pandas as pd

# Enable Arrow-based columnar data transfers
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# Create a Spark DataFrame from a pandas DataFrame using Arrow
df = spark.createDataFrame(pdf)

选中https://docs.databricks.com/spark/latest/spark-sql/spark-pandas.html

在Databricks笔记本电脑上，熊猫df触发df转换需要很长时间

1 个答案: