我是Nutch的新手。我需要抓取网页(比如几百个网页),阅读已抓取的数据并做一些分析。
我按照https://wiki.apache.org/nutch/NutchTutorial链接(并集成了Solr,因为我将来可能需要搜索文本)并使用几个网址作为种子运行抓取。
现在,我在本地计算机上找不到text/html
数据。我在哪里可以找到数据以及以文本格式读取数据的最佳方式是什么?
答案 0 :(得分:9)
爬网结束后,您可以使用bin / nutch dump命令转储以纯HTML格式提取的所有网址。
用法如下:
$ bin/nutch dump [-h] [-mimetype <mimetype>] [-outputDir <outputDir>]
[-segment <segment>]
-h,--help show this help message
-mimetype <mimetype> an optional list of mimetypes to dump, excluding
all others. Defaults to all.
-outputDir <outputDir> output directory (which will be created) to host
the raw data
-segment <segment> the segment(s) to use
例如,您可以执行类似
的操作$ bin/nutch dump -segment crawl/segments -outputDir crawl/dump/
这会在-outputDir位置创建一个新目录,并转储以html格式抓取的所有页面。
还有很多方法可以从Nutch中转出特定数据,看看https://wiki.apache.org/nutch/CommandLineOptions