我有两个独立的Hive表,我想在其中运行一个非常复杂的字符串匹配算法。我想使用SparkR或sparklyr,但我正在尝试确定嵌套dapply
,gapply
或spark_apply
语句的可行性。我还没有看到嵌套应用的一个例子。
问题陈述:邮政编码中地址的模糊匹配。基本上,我已经在Zip = Zip的两个数据集上对地址进行了笛卡尔连接。但现在我有两列需要匹配的地址,第三列Zips需要保留为“GroupBy”来约束潜在成对比较的超集。因此,第一个“密钥”是Zip,但后来我想使用第二个“密钥”将一系列比较发送到column1中的单个地址,匹配column2中的所有可能地址(在同一个Zip中)。这似乎需要apply
或SparkR
中的一个分布式sparklyr
函数,但每个函数看起来都不会允许,例如,gapply(...,gapply())
或{{ 1}}。
有没有人试过这个或者遇到过类似的问题?