标签: java web-crawler crawler4j
我正在使用crawler4j抓取rottentomatoes网站来提取结构化数据。 我已经设置了一切,并且在项目主页上的示例中给出了默认URL,一切正常,但是当我放置自己的种子时,应用程序只访问我提供的URL。我错过了什么吗?
crawler4j
答案 0 :(得分:1)
最常见的错误是shouldVisit方法总是返回false,因此抓取工具只访问种子网址。