使用PHP从站点中提取HTML

时间:2014-03-09 07:50:41

标签: php

这是我所指的site

我搜索了stackoverflow并尝试了各种建议的php方法,如file_get_contents()和readfile()方法,但它无法从站点中检索表值。

我试图从页面查看源代码,但我也找不到表值。我试着寻找iframe src,但无济于事。

不确定是否有任何方法可用于从网站检索此类值?

请告知。

2 个答案:

答案 0 :(得分:2)

表格的html似乎是在客户端(在您的浏览器中)使用javascript生成的,因此它不会以您在其中看到的方式显示在服务器的响应中浏览器(您可以尝试禁用javascript并检查网站)。你可以:

  1. 切换技术,并使用某种类型的远程控制器浏览器,如phantomJS
  2. 您可以使用try来使用他们的原始数据。只需打开浏览器的开发者工具(通常是 F12 )并查看提取的URL。您可能需要尝试分析网站的javascript代码以理解这些内容。你应该看到这样的东西:enter image description here
  3. 在这两种情况下,请与网站所有者核实是否可以使用此类用户(如果他们有一个或只是发送电子邮件,请阅读他们的数据使用政策),大多数网站所有者也不是快乐这种爬行。

答案 1 :(得分:1)

使用curl的逻辑,请参考此示例

<?php 
        // create curl resource 
        $ch = curl_init(); 

        // set url 
        curl_setopt($ch, CURLOPT_URL, "example.com"); 

        //return the transfer as a string 
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 

        // $output contains the output string 
        $output = curl_exec($ch); 

        // close curl resource to free up system resources 
        curl_close($ch);      
?>