我正在调查通过Spark中的Python使用关联规则的可能性。遗憾的是,根据documentation,这只是在Java和Scala中实现的。我做了一些深思熟虑的调查,看看是否有任何类似的实现,到目前为止我发现的是apriori算法。我想我会深入使用它,但我很想知道是否有人知道或者是否知道是否会为Spark应用程序实现关联规则?这是因为Spark很棒,它适合我的项目(构建一个处理数十亿行的推荐引擎)。
在this post中讨论了一个类似的主题,但似乎没有合格的工作。我还想检查是否有更好的解决方案实际上是一个真正的Python实现。
干杯!