标签: hadoop web-crawler nutch
我通过apache nutch抓取了网站。我通过命令注入,分段,提取,解析,更新b完成了这个过程。在哪个目录中提取数据?当我在所有nutch目录(如crawldb,segment)中搜索时,它以不可读的格式显示。搜索后我已经给出了dump命令,这样我就可以使用html格式了。这是提取数据的正确方法吗? 谢谢。
答案 0 :(得分:0)
您可以使用Solr索引这些数据。通过这种方式,您可以通过givin查询过滤数据
http://lucene.apache.org/solr/