由于我是Spark社区的新手,任何人都可以解释如何从数据库表创建PySpark RDD。我可以使用SparkContext方法的textFile()方法从CSV文件创建PySpark RDD。但我不知道从数据库表创建PySpark RDD。
答案 0 :(得分:0)
使用pyspark,
df = sqlContext.read.table("your_database.your_hive_table")
df
(数据框)现在将使用Spark API来播放您的行。例如,
df.select("*").show() //equivalent to select * from your_hive_table
>>> df = sqlContext.read.table("students")
>>> df.select("*").show()
+----+---------+---+
| a| b| c|
+----+---------+---+
| Jon| English| 80|
| Amy|Geography| 70|
|Matt| English| 90|
| Jon| Math|100|
| Jon| History| 60|
| Amy| French| 90|
+----+---------+---+