大规模的多道程序设计和只读文件访问

时间:2013-05-02 17:03:20

标签: java hadoop apache-pig

我正在尝试使用Pig创建在Hadoop集群上运行的基于字典的标记器。基本上,它所做的是,每个文档(相当大的文本文档,最多几MB)运行每个句子中的每个单词对着字典来读取相应的值。

在只读模式下使用字典文件,最多可以并行运行几百个java程序(而不是线程)。我们的想法是从文本加载字典并创建一个Map来查询它。

  

问题:我应该准备什么?在多道程序设计环境中想要读取文件是否是远程逻辑?或者我应该首先为每个实例复制(相对较小的)文件程序?在阅读文件时我应该使用BufferedReader吗?

关于多道程序设计的结构化文档非常少(与多线程相比),所以我有点害怕在这样做时碰壁。

注意:如果你给我一个更好的方法,你只能回答我的思维方式完全错误; - )

1 个答案:

答案 0 :(得分:0)

我认为你的方法很好。您应该将字典从DistributedCache加载到内存中,并使用内存加载字典(例如HashMap)进行检查。