在Databricks笔记本电脑上,熊猫df触发df转换需要很长时间

时间:2020-07-22 20:45:54

标签: pandas apache-spark pyspark databricks azure-databricks

我有一个熊猫df,它的行数超过一千万。我正在尝试使用以下方法将此熊猫df转换为spark df。

spark_session = SparkSession.builder.appName('pandasToSparkDF').getOrCreate()
# Pandas to Spark
spark_df = spark_session.createDataFrame(pandas_df)

此过程需要大约9分钟的时间才能将pandas df转换为Databricks上的1000万行df。 太长了。

还有其他方法可以更快地转换它吗?

谢谢。感谢帮助。

1 个答案:

答案 0 :(得分:0)

您使用了什么驱动程序节点大小?

还有一件事, 你这样做吗?

import numpy as np
import pandas as pd

# Enable Arrow-based columnar data transfers
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# Create a Spark DataFrame from a pandas DataFrame using Arrow
df = spark.createDataFrame(pdf)

选中https://docs.databricks.com/spark/latest/spark-sql/spark-pandas.html