加快php web scraping

时间:2017-03-23 02:24:18

标签: php curl simple-html-dom

目前我正在使用file_get_html()以及来自10个不同网站的简单HTML dom。该过程分为两个部分。在第一部分中,我删除了产品页面的链接并将它们保存到MySQL数据库中。然后运行另一个脚本,该脚本从数据库获取链接并从中删除数据以保存到数据库中的另一个表。

为了避免超时,我一次查询10个链接。处理它们并在开始之前保存它们。

我想加快数据收集过程,并希望了解可用的最佳方法。请记住,我不希望外国网站阻止我认为我通过同时发送太多请求来执行某种攻击。

$query = $database->query("SELECT * FROM links WHERE web='hoobly' LIMIT 10");
while ($array = $database->fetch_array($query)) {
    $slink = $array['link'];
    $html = file_get_html($slink);
    $html->find('blah blah');
}

0 个答案:

没有答案