如何使用Pyspark SQL查询多个表

时间:2018-07-28 14:41:20

标签: python pyspark-sql

社区

下面的pyspark sql代码尝试查询两个表#1 Person_Person.csv和表#2 appl_stock.csv。该查询正在尝试从“ appl_stock.csv”获取结果,但无法返回任何结果。但是,如果从如下所示删除Person_Person.csv并保留appl_stock.csv,则查询成功。因此,有人可以告诉我如何向查询中添加除表(.csv)之外的内容。

df = spark.read.csv('/home/packt/Downloads/Spark_DataFrames/, appl_stock.csv',inferSchema=True,header=True)

import findspark
findspark.init('/home/packt/spark-2.1.0-bin-hadoop2.7')
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('ops').getOrCreate()
df = spark.read.csv('/home/packt/Downloads/Spark_DataFrames/Person_Person.csv, appl_stock.csv',inferSchema=True,header=True)
df.createOrReplaceTempView(**'Person_Person, appl_stock'**)
results = spark.sql("SELECT \
appl_stock.Open\
, appl_stock.Close\
 FROM appl_stock\
 WHERE appl_stock.Close < 500")
results.show()

谢谢

0 个答案:

没有答案