java - Hadoop笛卡尔积

我有两个具有1万行的文件。我的目标是为每对单词计算Jaccard距离。我必须使用MapReduce框架，因为它在分配中（是的，这是一项家庭作业）。

我有解决方案，似乎可行。我编写了GitHub gist，而不是在此处放一堆代码。

因为没有关于创建自定义InputFormater的文档，所以我只是通过研究现有的源代码来实现的。

主要问题是文件大小。它们很小，难以分割，因此Hadoop仅创建一个Mapper来处理所有输入。有什么方法可以改善它吗？

我也希望代码不是完美的，所以我欢迎每一个反馈。

我正在使用Hadoop 3.1.1。