应用错误收集

我正在尝试使用Pig创建在Hadoop集群上运行的基于字典的标记器。基本上，它所做的是，每个文档（相当大的文本文档，最多几MB）运行每个句子中的每个单词对着字典来读取相应的值。

在只读模式下使用字典文件，最多可以并行运行几百个java程序（而不是线程）。我们的想法是从文本加载字典并创建一个Map来查询它。

问题：我应该准备什么？在多道程序设计环境中想要读取文件是否是远程逻辑？或者我应该首先为每个实例复制（相对较小的）文件程序？在阅读文件时我应该使用BufferedReader吗？

关于多道程序设计的结构化文档非常少（与多线程相比），所以我有点害怕在这样做时碰壁。

注意：如果你给我一个更好的方法，你只能回答我的思维方式完全错误; - ）