使用php的屏幕抓取技术

时间:2009-02-06 11:12:28

标签: php screen-scraping

如何筛选特定网站。我需要登录一个网站,然后抓取内部信息。 怎么可以这样做?

请指导我。

重复:How to implement a web scraper in PHP?

6 个答案:

答案 0 :(得分:1)

Zend_Http_Client and Zend_Dom_Query

答案 1 :(得分:0)

您想查看curl功能 - 它们会让您从其他网站获取一个页面。您可以使用cookie或HTTP身份验证首先登录,然后获取所需的页面,具体取决于您登录的站点。

获得该页面后,您可能最好使用regular expressions来获取所需的数据。

答案 2 :(得分:0)

你应该看看curl。

答案 3 :(得分:0)

您可能还想看一下BeautifulSoup这是一个Python库,它应该非常擅长使HTML可解析。它的目标是屏幕抓取等。

从PHP调用是多么容易,但我不知道。

答案 4 :(得分:0)

您还可以查看http://php.net/dom

答案 5 :(得分:0)

卷曲,一旦进入,使用QueryPath php库。 (querypath.org) 您可以通过CSS选择器访问dom元素,就像在JQuery中一样 有链接的方法...

比使用php的原生xml函数更好。

它也可以作为drupal扩展,但我想你可以在任何php项目中实现它。