我猜它的php cURL,但是什么是最好的方法来制作一个循环来从一个在URL查询中使用id的网页抓取DOM信息,如(?ProductId = 103)大约有1200页。我需要在每个页面上找到第9个跨度的innerHTML。此信息将存储在mySQL表中(id->值),以便将来删除此站点。
答案 0 :(得分:2)
好卷曲可能会更快(不确定),但如果它是一次性的东西,那么我只会使用file_get_contents
for($x=0;$x<1200;$x++){
$f = file_get_contents(URL . '?productId='.$x);
#do stuff to $f
}
答案 1 :(得分:1)
是。使用cURL检索页面,使用像SimpleXML这样的DOM解析器来获取您需要的信息。
答案 2 :(得分:0)
为了加快速度,您可以使用multi_curl =&gt;
https://stackoverflow.com/search?q=[php]+multi_curl
在更好的=>之前已经回答了刮削部分。例如https://stackoverflow.com/questions/3885760/scraping-and-web-crawling-framework-php。
你应该搜索=&gt; https://stackoverflow.com/search?q=[php]+web+scraping
我不知道你是否这样做,但你应该使用PDO来保证安全(SQL注入)。