我正在编写一个可能需要半天的脚本,因为它可以从网站上获取大约14000个网页的数据。
要了解它是否有所进展,有没有办法观察它的执行,即与每个被删除的页面的传出连接,使用mac os shell?
我正在使用curl来获取页面内容,如果有任何帮助的话。
非常感谢! 查尔斯
EDIT 该脚本用php编写,并从localhost执行。
答案 0 :(得分:0)
编写自定义脚本时,将某种状态输出到stdout非常有用。
这可以使用printf
http://www.php.net/manual/en/function.sprintf.php
您登录stdout的内容取决于您需要查看的信息。也许对于卷曲请求我会记录Url,响应代码,也许是开始时间和结束时间。它真的取决于你,只要确保你可以验证它的状态/进度。
printf('%40s | %5s', 'URL', 'Status Code');
printf('%40s | %5s', $the_url, $status_code);
答案 1 :(得分:0)
如果您通过Web浏览器运行此操作,则在PHP执行完之后才会看到输出。但是,file_put_contents()
可以将数据附加到您可以查看的日志文件中。
一行示例代码为:file_put_contents("file name.txt", "\nWebsite abc was successfully scraped", FILE_APPEND);
。您必须拥有FILE_APPEND标志,否则PHP每次都会覆盖该文件。