如何从任何数据库表创建PySpark RDD?

时间:2018-02-10 07:52:17

标签: pyspark

由于我是Spark社区的新手,任何人都可以解释如何从数据库表创建PySpark RDD。我可以使用SparkContext方法的textFile()方法从CSV文件创建PySpark RDD。但我不知道从数据库表创建PySpark RDD。

1 个答案:

答案 0 :(得分:0)

使用pyspark,

df = sqlContext.read.table("your_database.your_hive_table")

df(数据框)现在将使用Spark API来播放您的行。例如,

df.select("*").show()  //equivalent to select * from your_hive_table

>>> df = sqlContext.read.table("students")
>>> df.select("*").show()
+----+---------+---+
|   a|        b|  c|
+----+---------+---+
| Jon|  English| 80|
| Amy|Geography| 70|
|Matt|  English| 90|
| Jon|     Math|100|
| Jon|  History| 60|
| Amy|   French| 90|
+----+---------+---+