使用Crawler4j,我可以获取由完整网址链接的网页,例如:
<a href='http://www.domain.com/thelink'>
但是我发现如果链接是相对的,例如:
<a href='/thelink'>
Crawler4j将绕过此链接(页面),我甚至没有机会看到shouldVisit(Page referringPage, WebURL url)
方法中的链接。
我在Crawler4j Github page中没有看到关于此的任何配置,我是否会遗漏某些内容?
答案 0 :(得分:3)
如项目页面上的相关issue所述,似乎此行为与此事实相关,即此特定网页使用ajax / javascript执行大量渲染内容。
但是,crawler4j
无法按需呈现javascript样式,因为它不包含用于此目的的javascript引擎。此外,尚未扫描script
标记的URL。