现在,我正在使用stormcrawler来爬网网站。
我想知道可以通过<body>
标签或其他类似<article>
的东西在风暴搜寻器中进行搜寻。
我修改了parsefilters.json文件,如下所示,但它不起作用
{
"class": "com.digitalpebble.stormcrawler.parse.filter.ContentFilter",
"name": "ContentFilter",
"params": {
"pattern": "//ARTICLE",
"pattern": "//BODY"
}
}
请告诉我如何解决此问题。谢谢
答案 0 :(得分:0)
ContentFilter的作用是将从HTML提取的文本限制为XPath表达式所匹配的范围。那是您要达到的目标吗?可能是因为抓取工具获得的内容与您看到的内容不同,例如它是动态生成的吗?如果在该URL上使用curl时可以看到标签,那么StormCrawler也应该如此。