如何调试Storm Crawler解析过滤器

时间:2017-06-01 13:07:30

标签: web-crawler stormcrawler

我遇到的情况是XPathFilter没有解析页面中的某些链接 - 可能是因为格式错误的HTML。

我可以看到链接可以直接用JSoup解析。我想知道是否有一种简单的方法(可能是测试用例/装备)确定XPathFilter看到了什么?

1 个答案:

答案 0 :(得分:1)

您可以使用DebugParseFilter。它将转储网页的XML表示,这可能会让您了解为什么没有使用XPath获取内容。为此,请将DebugParseFilter添加到parsefilters.json文件中,就像任何其他ParseFilter一样。

可能是格式错误的HTML或动态内容。