我正在从hive读取两个表到数据帧,并希望将唯一的数字与两个数据帧中的行相关联。该数字在数据框内以及两个数据框中都应该是唯一的。
我在从hive查询时读到了关于使用row_source()
函数的信息,但这两个数据框的数字不是唯一的。
请提出解决方案。
答案 0 :(得分:0)
你可以做的一件事是创建一个生成随机数的UDF并添加另一个使用此UDF创建的列ID,并且您的UDF可以使用前缀来区分列ID,
例如 dataFrame1 就像 df1 :: 121237814 ,对于 dataFrame2 ,它就像 df2 :: 65452634827 强>
所以你的UDF可能有点像这样:
def generateIdForDF1=df1::UUID.randomUUID.hashCode.toLong
另一个也一样!