第一个RDD
user_person
是一个Hive表,其中记录了每个人的信息:
+---------+---+----+
|person_id|age| bmi|
+---------+---+----+
| -100| 1|null|
| 3| 4|null|
...
下面是我的第二个RDD
,这是一个只有40行并且仅包含基本信息的Hive表:
| id|startage|endage|energy|
| 1| 0| 0.2| 1|
| 1| 2| 10| 3|
| 1| 10| 20| 5|
我想按年龄范围为每一行计算每个人的能量需求。
例如,一个人的年龄为4,所以它需要3的能量。我想将该信息添加到RDD user_person
中。
我该怎么做?
答案 0 :(得分:2)
首先,使用enableHiveSupport()
初始化spark会话,并将Hive配置文件(hive-site.xml,core-site.xml和hdfs-site.xml)复制到Spark / conf /目录,以启用Spark从Hive读取。
val sparkSession = SparkSession.builder()
.appName("spark-scala-read-and-write-from-hive")
.config("hive.metastore.warehouse.dir", params.hiveHost + "user/hive/warehouse")
.enableHiveSupport()
.getOrCreate()
读取Hive表作为数据框,如下所示:
val personDF= spark.sql("SELECT * from user_person")
val infoDF = spark.sql("SELECT * from person_info")
使用以下表达式加入这两个数据框:
val outputDF = personDF.join(infoDF, $"age" >= $"startage" && $"age" < $"endage")
outputDF
数据帧包含输入数据帧的所有列。