嵌套的gapply(),dapply或spark_apply()函数?

时间:2018-05-02 20:38:50

标签: r apache-spark cluster-computing sparkr sparklyr

我有两个独立的Hive表,我想在其中运行一个非常复杂的字符串匹配算法。我想使用SparkR或sparklyr,但我正在尝试确定嵌套dapplygapplyspark_apply语句的可行性。我还没有看到嵌套应用的一个例子。

问题陈述:邮政编码中地址的模糊匹配。基本上,我已经在Zip = Zip的两个数据集上对地址进行了笛卡尔连接。但现在我有两列需要匹配的地址,第三列Zips需要保留为“GroupBy”来约束潜在成对比较的超集。因此,第一个“密钥”是Zip,但后来我想使用第二个“密钥”将一系列比较发送到column1中的单个地址,匹配column2中的所有可能地址(在同一个Zip中)。这似乎需要applySparkR中的一个分布式sparklyr函数,但每个函数看起来都不会允许,例如,gapply(...,gapply())或{{ 1}}。

有没有人试过这个或者遇到过类似的问题?

0 个答案:

没有答案