在nutch crawl / segment文件夹中查看数据

时间:2015-02-24 00:16:42

标签: nutch

我对查看crawldb/segments文件夹中的数据有疑问。我看到段文件夹中有一个content/part-00000文件夹。如何转储数据(或查看数据)?

这就是我在二进制文件中输入esc :%!xxd时所看到的(我删除了十六进制代码)

SEQ.org.apache.hadoop.io.Text 
org.apache.nutch.parse.ParseText.
.org.apache.hadoop.io.compress. 
DefaultCodec http://localhost:8001/a.html 

以及更多这样的角色。

没有多大意义。这看起来不像我在本地页面上的数据。是否有其他方式来看待这个或者我应该在另一个地方看看?

1 个答案:

答案 0 :(得分:1)

从nutch home运行以下命令:

bin/nutch readseg -dump crawl/segments/your_segment output -nofetch -noparse -noparsetext

要知道可以使用Nutch的命令,请尝试运行

bin/nutch

我希望有所帮助。