使用nutch解析只需要的数据

时间:2018-01-31 05:19:20

标签: python-3.x nutch

我已经构建了nutch crawler来抓取新闻网站,但问题是我从特定网站获取所有数据,我不想要,我的问题是如何配置nutch来解析我想要的数据

1 个答案:

答案 0 :(得分:0)

虽然这不是一个非常好的问题,但我们试着提出一些背景信息。首先,您需要定义您想要的数据,这通常意味着:

  • 抓取特定网址。
  • 提取页面HTML中的特定数据(类似于特定段落,标题等)

对于特定的网址案例,您可以使用URLFilters来排除您想要的任何网址。在这种情况下,因为你只提到1个网站,这应该有用。

对于第二种情况,您可以看看这3种选择: