Goutte / Web Scraping - 如何拦截和下载文件

时间:2017-02-23 02:19:43

标签: web-scraping goutte

首先,在此提前感谢您的帮助,我们非常感谢!

我已成功设法让Goutte进行身份验证,点击网址,更改选择字段并点击提交按钮。

然后页面重新加载,当它完成加载时,它会将文件下载到客户端。

如何在Goutte中拦截此文件?我尽可能多地阅读了doco,但似乎无法找到答案。然后我想基本上点击这个文件,遍历它并在本地保存。

根据文件类型,我想遍历它,或在本地保存。

谢谢: - )

1 个答案:

答案 0 :(得分:0)

实现这一点并不容易。在我的情况下,我打开文件所在的URL(验证后),然后服务器提供文件(作为页面的对象),之后你可以获得页面的内容。

// $url contains the path to the file.
$session->visit($url);
$page = $session->getPage();
$saved = file_put_contents($targetFilePath, $page->getContent());

就我而言,我正在下载zip文件。在您的情况下,可能将其保存在临时位置,检测类型然后将其移动到任何所需的目录。 希望这会有所帮助。