我正在尝试使用Pig创建在Hadoop集群上运行的基于字典的标记器。基本上,它所做的是,每个文档(相当大的文本文档,最多几MB)运行每个句子中的每个单词对着字典来读取相应的值。
在只读模式下使用字典文件,最多可以并行运行几百个java程序(而不是线程)。我们的想法是从文本加载字典并创建一个Map
来查询它。
问题:我应该准备什么?在多道程序设计环境中想要读取文件是否是远程逻辑?或者我应该首先为每个实例复制(相对较小的)文件程序?在阅读文件时我应该使用
BufferedReader
吗?
关于多道程序设计的结构化文档非常少(与多线程相比),所以我有点害怕在这样做时碰壁。
注意:如果你给我一个更好的方法,你只能回答我的思维方式完全错误; - )