我想知道是否有人知道在Spark中有关于Joins vs Lookups的讨论?我已经看到了这个页面:Lookup in spark dataframes每个人基本上都认为联接远远优于查找,而且我在google-fu试图找到任何支持或甚至讨论这两个主题的任何东西都没有成功。
答案 0 :(得分:1)
Spark DataFrame中的查找这样的东西根本不存在,因此它不如任何其他解决方案和连接(散列或广播)或使用本地数据结构是唯一的选择。
答案 1 :(得分:0)
查找和联接是关系数据系统中的两个不同概念。因此,在一般情境中说一个优于另一个因为它们具有不同的功能而言确实没有意义。查找只是查找数据,有时使用键或哈希值来优化查询速度。连接使用两个数据集中的公共元素来创建新数据集。
E.g。 (完全假设和抽象)
查找查询1
='您好'
加入查询1 ,查询2
=
' Hello world'
如果查询2 等于 world