Question

我通过apache nutch抓取了网站。我通过命令注入，分段，提取，解析，更新b完成了这个过程。在哪个目录中提取数据？当我在所有nutch目录（如crawldb，segment）中搜索时，它以不可读的格式显示。搜索后我已经给出了dump命令，这样我就可以使用html格式了。这是提取数据的正确方法吗？谢谢。

Answer 1

您可以使用Solr索引这些数据。通过这种方式，您可以通过givin查询过滤数据

http://lucene.apache.org/solr/

爬网完成后，我们在哪里可以通过网络爬网找到数据？

1 个答案: