当URL具有产品ID而不是真值时,抓取网站以获取信息

时间:2011-01-28 02:03:53

标签: php linux web-scraping

我猜它的php cURL,但是什么是最好的方法来制作一个循环来从一个在URL查询中使用id的网页抓取DOM信息,如(?ProductId = 103)大约有1200页。我需要在每个页面上找到第9个跨度的innerHTML。此信息将存储在mySQL表中(id->值),以便将来删除此站点。

3 个答案:

答案 0 :(得分:2)

好卷曲可能会更快(不确定),但如果它是一次性的东西,那么我只会使用file_get_contents

for($x=0;$x<1200;$x++){
  $f = file_get_contents(URL . '?productId='.$x);
  #do stuff to $f
 }

答案 1 :(得分:1)

是。使用cURL检索页面,使用像SimpleXML这样的DOM解析器来获取您需要的信息。

答案 2 :(得分:0)

卷曲

为了加快速度,您可以使用multi_curl =&gt;

https://stackoverflow.com/search?q=[php]+multi_curl

在更好的=>之前已经回答了刮削部分。例如https://stackoverflow.com/questions/3885760/scraping-and-web-crawling-framework-php

你应该搜索=&gt; https://stackoverflow.com/search?q=[php]+web+scraping

mySQL的

我不知道你是否这样做,但你应该使用PDO来保证安全(SQL注入)。