应用错误收集

时间：2013-11-09 11:18:21

标签： java web-crawler crawler4j

我希望crawler4j以这样一种方式访问页面，即它们只属于种子中的域。种子中有多个域。我该怎么办？

假设我正在添加种子网址：

现在我开始抓取，但我希望我的抓取工具仅在以上三个域中访问网页（就像shouldVisit()一样）。显然有外部链接，但我希望我的抓取工具仅限于这些域。子域，子文件夹是可以的，但不在这些域之外。

答案 0 :(得分：1)

代表OP发表：

答案 1 :(得分：0)

如果您尝试将抓取工具限制为仅具有与种子网址相同的网址的网址，则：