爬网完成后,我们在哪里可以通过网络爬网找到数据?

时间:2018-04-29 13:53:18

标签: hadoop web-crawler nutch

我通过apache nutch抓取了网站。我通过命令注入,分段,提取,解析,更新b完成了这个过程。在哪个目录中提取数据?当我在所有nutch目录(如crawldb,segment)中搜索时,它以不可读的格式显示。搜索后我已经给出了dump命令,这样我就可以使用html格式了。这是提取数据的正确方法吗? 谢谢。

1 个答案:

答案 0 :(得分:0)

您可以使用Solr索引这些数据。通过这种方式,您可以通过givin查询过滤数据

http://lucene.apache.org/solr/