使用Cloud9和hadoop

时间:2016-03-02 23:59:53

标签: hadoop wikipedia

首先关闭:我正在使用新的Mac Book,运行El Capitan 10.11.3,我刚刚下载了最新的Hadoop(2.6.0)。

我正在尝试使用Cloud9从维基百科转储中的一堆页面中提取主要文章文本。基本上,他们告诉你如何做到这一点,因为他们的第二个"快速和肮脏"此文档页面上的示例: http://lintool.github.io/Cloud9/docs/content/wikipedia.html

我下载了所有内容并在终端中输入了相同的命令:

hadoop jar target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /wiki-sample.xml -wiki_language en -output wiki-sample-output.txt

SIDENOTE:我创建了一个样本.xml,其中包含大量wiki转储的前1500行左右,然后是wiki转储结束时的最后几页。我试图让它在真正运行之前尝试使用它。

无论如何,所以我运行该命令,似乎正在做某事,然后在命令行上打印出一堆准文档:

usage: edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText
 -input <path>                              XML dump file
 -output <path>                             output path
 -wiki_language <en|sv|de|cs|es|zh|ar|tr>   two-letter language code
Generic options supported are
-conf <configuration file>     specify an application configuration file
-D <property=value>            use value for given property
-fs <local|namenode:port>      specify a namenode
-jt <local|resourcemanager:port>    specify a ResourceManager
-files <comma separated list of files>    specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars>    specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives>    specify comma separated    archives to be unarchived on the compute machines.

The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]

这些都不是特别有用,最重要的是,它不会使用文章文本创建输出文件。我还尝试使用正确的名称创建一个(空白)输出文件,看它是否会填充它,但这也不起作用。

对于我可能做错的任何想法都将不胜感激。我是使用hadoop的新手,所以我希望它能让我感到很简单。 Cloud9页面指出,截至2015年12月,该库已不再被积极开发或维护。所以我真的希望有人可以帮助我。非常感谢。 塞特

简要附录: 我也尝试回到根目录并在开始时使用完整路径和bin / hadoop运行所有内容,但这也做了同样的事情。这是来自root的我的(不成功)命令:

bin/hadoop jar /Users/Seth/Documents/Cloud9/target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /Users/Seth/Documents/Cloud9/wiki-sample.xml -wiki_language en -output /Users/Seth/Documents/Cloud9/wiki-sample-output.txt

1 个答案:

答案 0 :(得分:2)

不是您特定问题的答案。

但是,如果您想要做的是从维基百科转储中获取一个简单,可用的语料库,我建议您使用:https://github.com/idio/json-wikipedia

并行模式使用你机器中的所有资源,在macbook pro中,英语维基百科不会超过30/45分钟,大约有16G内存和8个内核