我有一个熊猫df,它的行数超过一千万。我正在尝试使用以下方法将此熊猫df转换为spark df。
spark_session = SparkSession.builder.appName('pandasToSparkDF').getOrCreate()
# Pandas to Spark
spark_df = spark_session.createDataFrame(pandas_df)
此过程需要大约9分钟的时间才能将pandas df转换为Databricks上的1000万行df。 太长了。
还有其他方法可以更快地转换它吗?
谢谢。感谢帮助。
答案 0 :(得分:0)
您使用了什么驱动程序节点大小?
还有一件事, 你这样做吗?
import numpy as np
import pandas as pd
# Enable Arrow-based columnar data transfers
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))
# Create a Spark DataFrame from a pandas DataFrame using Arrow
df = spark.createDataFrame(pdf)
选中https://docs.databricks.com/spark/latest/spark-sql/spark-pandas.html