应用错误收集

如何让crawler4j按相对路径获取页面？

时间：2016-06-06 08:24:39

标签： crawler4j

使用Crawler4j，我可以获取由完整网址链接的网页，例如：

<a href='http://www.domain.com/thelink'>

但是我发现如果链接是相对的，例如：

<a href='/thelink'>

Crawler4j将绕过此链接（页面），我甚至没有机会看到shouldVisit(Page referringPage, WebURL url)方法中的链接。

我在Crawler4j Github page中没有看到关于此的任何配置，我是否会遗漏某些内容？

1 个答案:

答案 0 :(得分：3)

如项目页面上的相关issue所述，似乎此行为与此事实相关，即此特定网页使用ajax / javascript执行大量渲染内容。

但是，crawler4j无法按需呈现javascript样式，因为它不包含用于此目的的javascript引擎。此外，尚未扫描script标记的URL。