查询从spark中具有相同列名的两个表创建下拉列表

时间:2017-05-13 12:14:05

标签: apache-spark apache-spark-sql

我有两个表学生和员工具有相同的列作为位置我想在spark sql中编写一个查询来创建一个位置列的下拉列表,该列表应该包含来自两个表的记录。

1 个答案:

答案 0 :(得分:0)

您应该分别从两个表中阅读location列,然后使用union合并它们。

val employees:DataFrame = ... //read from employees table
val students:DataFrame = ... //read from students table
val locations:DataFrame = employees.select("location").union(students.select("location")).dropDuplicates

从JDBC读取(取自spark documentation):

val jdbcDF = spark.read
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .load()