如何让crawler4j按相对路径获取页面?

时间:2016-06-06 08:24:39

标签: crawler4j

使用Crawler4j,我可以获取由完整网址链接的网页,例如:

<a href='http://www.domain.com/thelink'>

但是我发现如果链接是相对的,例如:

<a href='/thelink'>

Crawler4j将绕过此链接(页面),我甚至没有机会看到shouldVisit(Page referringPage, WebURL url)方法中的链接。

我在Crawler4j Github page中没有看到关于此的任何配置,我是否会遗漏某些内容?

1 个答案:

答案 0 :(得分:3)

如项目页面上的相关issue所述,似乎此行为与此事实相关,即此特定网页使用ajax / javascript执行大量渲染内容。

但是,crawler4j无法按需呈现javascript样式,因为它不包含用于此目的的javascript引擎。此外,尚未扫描script标记的URL。