如何使用PySpark从Panda数据帧写入Spark SQL表?

时间:2015-03-25 18:02:58

标签: python dataframe apache-spark-sql pyspark

pandas.DataFrame.to_sql()方法将允许您向数据库写出数据框的结果。这在标准RDBMS的上下文中工作正常。如何使用PySpark使用它与Spark SQL? 我需要这个方法的连接参数 - 这可能是什么?

感谢, 马特

1 个答案:

答案 0 :(得分:3)

SparkSQL与连接到SQL引擎的to_sql()无关。 如果 sc 是您的SparkContext

import pandas as pd
df = pd.DataFrame({'Name':['Tom','Major','Pete'], 'Age':[23,45,30]})

from pyspark import SQLContext
sqlc = SQLContext(sc)

spark_df = sqlc.createDataFrame(df)