需要帮助为恶意URL的数据集创建mapreduce

时间:2017-08-30 14:43:35

标签: java hadoop mapreduce dataset data-mining

我正在开展我的最后一年项目,我们必须创建一个应用程序来检测恶意网址。我们必须在所有网址之间找到模式。我们有一个很大的数据集,需要很长时间才能将网址与其他网址匹配。

现在我们正在考虑将项目转移到hadoop,但我们不知道如何为我们的java项目和数据集制作mapreduce并将其移动到hadoop。

请帮助我们为我们的程序和数据集创建mapreduce。 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

MapReduce 适合成对比较。

它意味着以相同的方式“映射”所有对象。要在严格的MR中处理对,您必须大量复制数据。这不是一个好主意,因为最终的数据传输会破坏性能。

成对比较问题通常不能很好地扩展。

如果您真的想要扩展,请考虑一种智能方法,以避免将所有网址与一些好的过滤器进行比较。也许你可以使用MapReduce进行过滤(并处理剩余的对)。