应用错误收集

我有两个独立的Hive表，我想在其中运行一个非常复杂的字符串匹配算法。我想使用SparkR或sparklyr，但我正在尝试确定嵌套dapply，gapply或spark_apply语句的可行性。我还没有看到嵌套应用的一个例子。

问题陈述：邮政编码中地址的模糊匹配。基本上，我已经在Zip = Zip的两个数据集上对地址进行了笛卡尔连接。但现在我有两列需要匹配的地址，第三列Zips需要保留为“GroupBy”来约束潜在成对比较的超集。因此，第一个“密钥”是Zip，但后来我想使用第二个“密钥”将一系列比较发送到column1中的单个地址，匹配column2中的所有可能地址（在同一个Zip中）。这似乎需要apply或SparkR中的一个分布式sparklyr函数，但每个函数看起来都不会允许，例如，gapply(...,gapply())或{{ 1}}。

有没有人试过这个或者遇到过类似的问题？

嵌套的gapply（），dapply或spark_apply（）函数？

0 个答案: