Sparklyr Antijoin中的近似双重比较

时间:2019-04-15 18:03:11

标签: r dplyr sparklyr anti-join

我正在尝试对现有的sparklyr代码进行微小的更改;这些更改旨在给出相同的结果,只是认为代码具有更高的可读性和效率。因此,我想确保获得相同的结果,并将其存储在hive表中。为此,我使用anti_join将新结果与旧结果进行比较:

diff.sdf <- clean_results.sdf %>% 
  anti_join(new_results.sdf, by = unlist(colnames(clean_results.sdf))) 

我没有100%匹配,在查看了详细信息之后,我怀疑anti-join在加倍时不起作用。看来它可能会考虑实际上并非如此的其他值。

可重现的示例(但可能是从spark到R再返回o spark会改变情况):

structure(list(mnt_tot = 37008.16, date_analyse = "2019-01-31"), row.names = c(NA, 
-1L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("mnt_tot", 
"date_analyse"))

structure(list(mnt_tot = 37008.16, date_analyse = "2019-01-31"), row.names = c(NA, 
-1L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("mnt_tot", 
"date_analyse"))

0 个答案:

没有答案