Question

我有一个大文本文件，大于1gb大，包含数据行线。这是文本文件A.txt

然后我有第二个文件，文本文件B.txt，其中包含30,000个唯一单词我想从文本文件A中提取，以及其余部分在文本文件A中找到该单词的行。

这方面的一个例子是：

- 文本文件A -

dog in house
cat at school
kid in playground
tom at oaks
so much stuff
inhouse cool stuff

- 文本文件B -

house
oaks

- 结果文件输出 -

dog in house
tom at oaks
inhouse cool stuff

我将如何以尽可能最快的方式做到这一点？市场上有没有专门从事此类任务的软件？

我不知道任何编程语言，所以如果有人知道编写代码的解决方案，我需要有关如何执行它的新手指令。

我已经在google上搜索了数小时和数小时，希望能找到解决方案，但却没有任何意义。

先谢谢

Answer 1

使用Java MapReduce可以执行以下操作：