Question

“如何获取ClueWeb语料库”使我感到困惑，有人可以帮助我。

我有一个包含以下文件的索引文件夹：

[20160624.chk,               data.lexicon.fsomapfile,  data.meta.zdata,                               md5sums,
data.direct.bf,             data.lexicon.fsomaphash,  data.properties,                               qrels.docids,
data.document.fsarrayfile,  data.lexicon.fsomapid,    docno2id.dat,
data.inverted.bf,           data.meta.idx,            indexing-clue09B-collection.spec_dual.out.gz]

我已经下载了galago-3.12.tar.gz并将其压缩，然后运行命令

./scripts/installlib.sh

正确。

完成后，我得到了这些文件和文件夹：

[BUILD,    core,  krovetz-stemmer,  LICENSE,    scripts,            tupleflow,             tupleflow-typebuilder,
contrib,  eval,  lib,              packaging,  README.md,  snowball-stemmers,  tupleflow-gridengine,  utility]

那么，在我的galago文件夹下，我应该怎么做才能获得clueweb语料库？

应该是：

./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path

还是不？（xxxxx表示加拉戈之后的某些命令）

例如，我尝试运行：

./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path

但是结果似乎是错误的。

获得线索网络语料库的另一种方法是使用Hadoop。我下载了hadoop-2.9.2.tar.gz并将其正确安装在Linux系统上。有人说，将配置好的“ pox.xml”与hadoop一起使用可以直接获得clueweb语料库。但是我不知道pox.xml和hadoop之间是什么关系。

有人可以帮助我解决这个问题吗？

如何通过Galago或Hadoop获得ClueWeb语料库？

0 个答案: