我希望crawler4j以这样一种方式访问页面,即它们只属于种子中的域。种子中有多个域。我该怎么办?
假设我正在添加种子网址:
现在我开始抓取,但我希望我的抓取工具仅在以上三个域中访问网页(就像shouldVisit()
一样)。显然有外部链接,但我希望我的抓取工具仅限于这些域。子域,子文件夹是可以的,但不在这些域之外。
答案 0 :(得分:1)
代表OP发表:
在此处获得解决方案:http://code.google.com/p/crawler4j/issues/detail?id=94#c1
答案 1 :(得分:0)
如果您尝试将抓取工具限制为仅具有与种子网址相同的网址的网址,则:
从种子网址中提取域名。
使用WebCrawler
方法编写您的抓取工具类(扩展shouldVisit
),以过滤掉其域中不属于该网址的任何网址。
配置控制器,添加种子并以正常方式启动...根据示例here。