用相关链接刮取整个网站

时间:2014-07-28 12:08:37

标签: php dom web-scraping web-crawler

我目前正在使用基于 Symfony Dom Crawler Goutte 的php脚本。它们提供了很好的抓取标签,选择器的可能性,但它是一种简单的方法来刮取整个网站并附加源代码中所有链接的完整链接?

当我创建我的抓取类的实例时,我指定了该页面,并且只想将该链接附加到页面上所有本地链接的前面。有什么想法吗?

1 个答案:

答案 0 :(得分:0)

你是否与PHP绑定?如果没有,您可以使用shell中的Zillabyte domain_crawler组件:

$ zillabyte execute domain_crawl "example.com" --output_file some_file