“如何获取ClueWeb语料库”使我感到困惑,有人可以帮助我。
我有一个包含以下文件的索引文件夹:
[20160624.chk, data.lexicon.fsomapfile, data.meta.zdata, md5sums,
data.direct.bf, data.lexicon.fsomaphash, data.properties, qrels.docids,
data.document.fsarrayfile, data.lexicon.fsomapid, docno2id.dat,
data.inverted.bf, data.meta.idx, indexing-clue09B-collection.spec_dual.out.gz]
我已经下载了galago-3.12.tar.gz并将其压缩,然后运行命令
./scripts/installlib.sh
正确。
完成后,我得到了这些文件和文件夹:
[BUILD, core, krovetz-stemmer, LICENSE, scripts, tupleflow, tupleflow-typebuilder,
contrib, eval, lib, packaging, README.md, snowball-stemmers, tupleflow-gridengine, utility]
那么,在我的galago文件夹下,我应该怎么做才能获得clueweb语料库?
应该是:
./core/target/appassembler/bin/galago xxxxx --outPaht=XXX --inputPath=my_clueweb_indice_path
还是不? (xxxxx表示加拉戈之后的某些命令)
例如,我尝试运行:
./core/target/appassembler/bin/galago make-corpus --outPaht=XXX --inputPath=my_clueweb_indice_path
但是结果似乎是错误的。
获得线索网络语料库的另一种方法是使用Hadoop。我下载了hadoop-2.9.2.tar.gz并将其正确安装在Linux系统上。有人说,将配置好的“ pox.xml”与hadoop一起使用可以直接获得clueweb语料库。但是我不知道pox.xml和hadoop之间是什么关系。
有人可以帮助我解决这个问题吗?