是否可以在Stormcrawler中按标签进行爬网?

时间:2018-07-16 20:27:39

标签: web-crawler stormcrawler

现在,我正在使用stormcrawler来爬网网站。 我想知道可以通过<body>标签或其他类似<article>的东西在风暴搜寻器中进行搜寻。 我修改了parsefilters.json文件,如下所示,但它不起作用

{
  "class": "com.digitalpebble.stormcrawler.parse.filter.ContentFilter",
  "name": "ContentFilter",
  "params": {
    "pattern": "//ARTICLE",
    "pattern": "//BODY"
   }
}

请告诉我如何解决此问题。谢谢

1 个答案:

答案 0 :(得分:0)

ContentFilter的作用是将从HTML提取的文本限制为XPath表达式所匹配的范围。那是您要达到的目标吗?可能是因为抓取工具获得的内容与您看到的内容不同,例如它是动态生成的吗?如果在该URL上使用curl时可以看到标签,那么StormCrawler也应该如此。