流口水,大量事实

时间:2018-08-27 11:58:28

标签: apache-spark drools mapr

我想就您尝试使用Drools解决的以下问题向您提出建议。 我的应用程序必须能够应用一组可定制的规则来在客户和嫌疑人之间生成匹配项,以检查其中是否存在匹配项,然后操作员应选择或拒绝匹配项建议。

客户数量从数千起,犯罪嫌疑人的名单可能达数百万。

在我的应用程序中,通常会有2个用例:

  1. 初始化阶段,客户已经注册,我们希望将规则应用于尝试加载的每个可疑对象。
  2. 注册新客户或更新旧客户的敏感数据时,我们希望在已加载所有可疑对象的情况下重新应用这些规则。

规则应具有足够的灵活性,可以根据不同的属性进行过滤,并使用Soundex / Levinstein等通用算法,甚至使用某些自定义版本来计算分数。

在给规则引擎提供事实之前,我希望避免预选,以使系统尽可能灵活……但是当然可以听取这种解决方案了。

我可能会想到某种元事实来减少事实的数量并应用规则,但在我看来,灵活地执行规则很难。

我不太熟悉基于MapReduce的解决方案,也不太熟悉Spark的解决方案,我想知道与Drools结合使用的这些解决方案是否与我的问题有关以及如何与Drools集成。

感谢您的建议,方向和见识。

0 个答案:

没有答案