如何在nutch中获取已抓取的网页内容和相应的网址?

时间:2013-07-23 05:23:56

标签: nutch

我想在文本文件中通过nutch获取已抓取的内容。我使用了#readseg commads,但输出并不富有成效。

是否有一些插件可以抓取并将网址和内容存储在文本文件中。

2 个答案:

答案 0 :(得分:2)

使用nutch 1,您可以执行以下操作:

./bin/nutch readseg -get out-crawl/segments/20160823085007/  "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

在文件的开头还有几行可以摆脱它。

答案 1 :(得分:1)

您可以修改Nutch的抓取作业,以便在抓取过程中获取URL和页面内容属于URL。在源代码文件(src / java / org / apache / nutch / fetcher / FetcherReducer.java)中:

      case ProtocolStatusCodes.SUCCESS:        // got a page
          String URL= TableUtil.reverseUrl(fit.url); //URL
          content = Bytes.toString(ByteBuffer.wrap((content.getContent()))));//URL belong the URL
          output(fit, content, status, CrawlStatus.STATUS_FETCHED);
          break;

希望这有帮助,

Le Quoc Do