在另一个DataFrame的嵌套元素中加入DataFrame

时间:2017-11-21 18:46:26

标签: scala apache-spark spark-dataframe apache-spark-dataset

我有以下2个DataFrame架构。内部USER_INFO modules是一个数组,content是一个嵌套在modules内的数组。我想加入/附加一些其他数据(METADATA)到每个content元素,以便

USER_INFO.modules.content.id = METADATA.cust_id 

什么是解决方案?

USER_INFO

root
 |-- userId: string (nullable = true)
 |-- modules: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- content: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- distance: double (nullable = true)
 |    |    |    |    |-- id: string (nullable = true)
 |    |    |    |    |-- impressionId: string (nullable = true)
 |    |    |-- id: string (nullable = true)


 METADATA

 root
 |-- cust_id: string (nullable = true)
 |-- image_url: string (nullable = true)

0 个答案:

没有答案