如何通过Galago或Hadoop获得ClueWeb语料库?

时间:2018-12-09 13:26:23

标签: hadoop

“如何获取ClueWeb语料库”使我感到困惑,有人可以帮助我。

我有一个包含以下文件的索引文件夹:

[20160624.chk,               data.lexicon.fsomapfile,  data.meta.zdata,                               md5sums,
data.direct.bf,             data.lexicon.fsomaphash,  data.properties,                               qrels.docids,
data.document.fsarrayfile,  data.lexicon.fsomapid,    docno2id.dat,
data.inverted.bf,           data.meta.idx,            indexing-clue09B-collection.spec_dual.out.gz]

我已经下载了galago-3.12.tar.gz并将其压缩,然后运行命令

./scripts/installlib.sh

正确。

完成后,我得到了这些文件和文件夹:

[BUILD,    core,  krovetz-stemmer,  LICENSE,    scripts,            tupleflow,             tupleflow-typebuilder,
contrib,  eval,  lib,              packaging,  README.md,  snowball-stemmers,  tupleflow-gridengine,  utility]

那么,在我的galago文件夹下,我应该怎么做才能获得clueweb语料库?

应该是:

./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path

还是不? (xxxxx表示加拉戈之后的某些命令)

例如,我尝试运行:

./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path

但是结果似乎是错误的。

获得线索网络语料库的另一种方法是使用Hadoop。我下载了hadoop-2.9.2.tar.gz并将其正确安装在Linux系统上。有人说,将配置好的“ pox.xml”与hadoop一起使用可以直接获得clueweb语料库。但是我不知道pox.xml和hadoop之间是什么关系。

有人可以帮助我解决这个问题吗?

0 个答案:

没有答案