抓取网站状态,标题和h1的大型网站的网站抓取工具

时间:2014-09-11 10:09:15

标签: web-crawler

我想抓取大型网站(例如,有1 000 000个内部链接),这对我现在使用的工具(Screaming Frog和Xenu)来说太多了。您是否知道任何PHP爬虫,它会发送有关数据库链接的数据并为我提供解决方案?

或者,如果我想概述网站上所有内部和外部链接的网站状态和标题,您有什么想法可以解决这个问题吗?任何付费脚本或其他东西(但没有像http://info.deepcrawl.co.uk/pricing/usd这样的在线工具对我来说真的很贵并且每月付费)。

我有一个运行脚本的服务器。

我需要这样的东西: http://codecanyon.net/item/jseo-web-crawler-for-search-engine-optimization/full_screen_preview/8770392 但是这种scirpt只能抓取很少的链接,并且不支持MySQL数据库保存。

感谢您的建议, 菲利普

1 个答案:

答案 0 :(得分:0)

首先创建一个php文件并将DOM解析器php文件包含在其中。 然后进入那个

$toGet = "your website link";
$innerHtmlPage = file_get_html($toGet);

以下代码用于从该网站页面查找标记或属性,然后您可以使用diff获取内容。 DOM解析器函数,如明文,innertext,outertext等。

foreach ($innerHtmlPage->find('body .paginationtop .data-display-view-all span') as $innerelement) {
      $pages = trim(strip_tags(substr($innerelement, strpos($innerelement, "of") + 2)));
 }