我正在尝试对现有的sparklyr
代码进行微小的更改;这些更改旨在给出相同的结果,只是认为代码具有更高的可读性和效率。因此,我想确保获得相同的结果,并将其存储在hive
表中。为此,我使用anti_join
将新结果与旧结果进行比较:
diff.sdf <- clean_results.sdf %>%
anti_join(new_results.sdf, by = unlist(colnames(clean_results.sdf)))
我没有100%匹配,在查看了详细信息之后,我怀疑anti-join
在加倍时不起作用。看来它可能会考虑实际上并非如此的其他值。
可重现的示例(但可能是从spark到R再返回o spark会改变情况):
structure(list(mnt_tot = 37008.16, date_analyse = "2019-01-31"), row.names = c(NA,
-1L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("mnt_tot",
"date_analyse"))
structure(list(mnt_tot = 37008.16, date_analyse = "2019-01-31"), row.names = c(NA,
-1L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("mnt_tot",
"date_analyse"))