从网站获取特定数据并将其转换为PDF

时间:2015-03-09 02:47:02

标签: php curl web-crawler fetch

我需要从ERPNEXT.COM/User-Guide获取特定数据以使其看起来像 https://drive.google.com/file/d/0B-uyX-vtnUFINnlhRWJ6cWNtMDg/view?usp=sharing

我只想删除页眉和页脚,以便只保留主标题和带图像的文章..这是我想在整个网站上进行并使用php或任何东西获取此数据,然后将其转换为PDF。我使用Acrobat pro将这些网页转换为PDF并为用户提供用户指南PDF。此外,我使用httrack下载完整的网站,但获取所有数据。

请建议完整的解决方案。

此致 Vishal Verma

1 个答案:

答案 0 :(得分:0)

使用此功能读取网址:

function fetchURL($URL) {
        $Max=200000;
        $handle = @fopen ($URL, "r");
        if ($handle === false){ return false; }
        $len = 0;
        $buffer = "";
        while (!feof($handle)){
            $queue = fgets($handle, 4096);
            $buffer .= $queue;
            $len = $len + strlen($queue);
            if($len > $Max){ fclose ($handle); unset($buffer); return 0; break;}else{continue;}
        }
        fclose ($handle);
        return $buffer;
    }

如果你想获取pdf只检查该函数substr(fetchURL([URL]),0,4)==='%PDF'中的字符。那个网址是pdf。在我的情况下,我将结果写入file.pdf中的磁盘。我希望这个帮助