PySpark相当于熊猫read_sql_query

时间:2020-08-17 14:32:06

标签: python sql pandas pyspark apache-spark-sql

我正尝试从熊猫切换到pyspark,通常在进行分析时,我使用pd.read_sql_query从redshift数据库中读取分析所需的数据。

示例:

query = '''
SELECT id, SUM(value)
FROM table
GROUP BY id
'''

df = pd.read_sql_query(query, engine)

PySpark中是否有任何等效功能?是否可以接收查询和SQLAlchemy引擎并返回查询结果?如果没有,在pyspark中获取SQL查询结果的最佳方法是什么?

我试图在pyspark.SQLContext中找到一些东西,但是没有发现有用的东西。

1 个答案:

答案 0 :(得分:1)

使用 spark.sql() API运行查询。

Example:

query='select 1'
spark.sql(query).show()
#+---+
#|  1|
#+---+
#|  1|
#+---+

要在任何 RDBMS 数据库上运行查询,然后使用spark.read.format("jdbc")建立连接并执行查询。

spark.read.format("jdbc").option(...).load()