Question

我对查看crawldb/segments文件夹中的数据有疑问。我看到段文件夹中有一个content/part-00000文件夹。如何转储数据（或查看数据）？

这就是我在二进制文件中输入esc :%!xxd时所看到的（我删除了十六进制代码）

SEQ.org.apache.hadoop.io.Text 
org.apache.nutch.parse.ParseText.
.org.apache.hadoop.io.compress. 
DefaultCodec http://localhost:8001/a.html

以及更多这样的角色。

没有多大意义。这看起来不像我在本地页面上的数据。是否有其他方式来看待这个或者我应该在另一个地方看看？

Answer 1

从nutch home运行以下命令：

bin/nutch readseg -dump crawl/segments/your_segment output -nofetch -noparse -noparsetext

要知道可以使用Nutch的命令，请尝试运行

bin/nutch

我希望有所帮助。