限制URL仅限种子URL域crawler4j

时间:2013-11-09 11:18:21

标签: java web-crawler crawler4j

我希望crawler4j以这样一种方式访问​​页面,即它们只属于种子中的域。种子中有多个域。我该怎么办?

假设我正在添加种子网址:

  • www.google.com
  • www.yahoo.com
  • www.wikipedia.com

现在我开始抓取,但我希望我的抓取工具仅在以上三个域中访问网页(就像shouldVisit()一样)。显然有外部链接,但我希望我的抓取工具仅限于这些域。子域,子文件夹是可以的,但不在这些域之外。

2 个答案:

答案 0 :(得分:1)

代表OP发表:

在此处获得解决方案:http://code.google.com/p/crawler4j/issues/detail?id=94#c1

答案 1 :(得分:0)

如果您尝试将抓取工具限制为仅具有与种子网址相同的网址的网址,则:

  1. 从种子网址中提取域名。

  2. 使用WebCrawler方法编写您的抓取工具类(扩展shouldVisit),以过滤掉其域中不属于该网址的任何网址。

  3. 配置控制器,添加种子并以正常方式启动...根据示例here