Hadoop笛卡尔积

时间:2018-09-26 17:00:33

标签: java hadoop mapreduce cartesian-product

我有两个具有1万行的文件。我的目标是为每对单词计算Jaccard距离。我必须使用MapReduce框架,因为它在分配中(是的,这是一项家庭作业)。

我有解决方案,似乎可行。我编写了GitHub gist,而不是在此处放一堆代码。

因为没有关于创建自定义InputFormater的文档,所以我只是通过研究现有的源代码来实现的。

主要问题是文件大小。它们很小,难以分割,因此Hadoop仅创建一个Mapper来处理所有输入。有什么方法可以改善它吗?

我也希望代码不是完美的,所以我欢迎每一个反馈。

我正在使用Hadoop 3.1.1。

0 个答案:

没有答案