从第三方网站检索和抓取大量数据

时间:2011-08-20 22:42:50

标签: php mysql

OI希望从第三方网站检索和删除大量有关用户的数据。一旦该人登录,我从第三方网站获取他们的数据并刮掉它。如何最有效地做到这一点,以防止服务器上的重大负载,并确保页面加载速度太慢?我正在考虑设置一个后台进程来检索数据并将进程设置为低优先级。你们有其他的技巧吗?

我正在使用PHP和Mysql。

2 个答案:

答案 0 :(得分:0)

Data Scraping - Wikipedia

这是您正在谈论的数据刮痧吗?如果是,我们可能需要更多细节才能提供帮助。

  • 您如何知道,用户已登录?
  • 您对第三方系统有什么样的访问权限?

答案 1 :(得分:0)

为了准确回答,需要更多信息。要指向正确的方向,您应该使用cURL将网页加载到字符串中。然后使用PHPs DOM解析器来解析页面。如果您正在寻找页面中的特定元素,那么DOM XPATH查询将非常有用(http://php.net/manual/en/class.domxpath.php)。或者,您可以使用DOM-> LoadHTML()直接加载页面,但选项少得多。