标签: python-3.x nutch
我已经构建了nutch crawler来抓取新闻网站,但问题是我从特定网站获取所有数据,我不想要,我的问题是如何配置nutch来解析我想要的数据
答案 0 :(得分:0)
虽然这不是一个非常好的问题,但我们试着提出一些背景信息。首先,您需要定义您想要的数据,这通常意味着:
对于特定的网址案例,您可以使用URLFilters来排除您想要的任何网址。在这种情况下,因为你只提到1个网站,这应该有用。
URLFilters
对于第二种情况,您可以看看这3种选择: