我对查看crawldb/segments
文件夹中的数据有疑问。我看到段文件夹中有一个content/part-00000
文件夹。如何转储数据(或查看数据)?
这就是我在二进制文件中输入esc :%!xxd
时所看到的(我删除了十六进制代码)
SEQ.org.apache.hadoop.io.Text
org.apache.nutch.parse.ParseText.
.org.apache.hadoop.io.compress.
DefaultCodec http://localhost:8001/a.html
以及更多这样的角色。
没有多大意义。这看起来不像我在本地页面上的数据。是否有其他方式来看待这个或者我应该在另一个地方看看?
答案 0 :(得分:1)
从nutch home运行以下命令:
bin/nutch readseg -dump crawl/segments/your_segment output -nofetch -noparse -noparsetext
要知道可以使用Nutch的命令,请尝试运行
bin/nutch
我希望有所帮助。