Question

现在，我正在使用stormcrawler来爬网网站。我想知道可以通过<body>标签或其他类似<article>的东西在风暴搜寻器中进行搜寻。我修改了parsefilters.json文件，如下所示，但它不起作用

{
  "class": "com.digitalpebble.stormcrawler.parse.filter.ContentFilter",
  "name": "ContentFilter",
  "params": {
    "pattern": "//ARTICLE",
    "pattern": "//BODY"
   }
}

请告诉我如何解决此问题。谢谢

Answer 1

ContentFilter的作用是将从HTML提取的文本限制为XPath表达式所匹配的范围。那是您要达到的目标吗？可能是因为抓取工具获得的内容与您看到的内容不同，例如它是动态生成的吗？如果在该URL上使用curl时可以看到标签，那么StormCrawler也应该如此。

是否可以在Stormcrawler中按标签进行爬网？

1 个答案: