PHPcrawler - tmp文件

时间:2012-04-02 06:08:12

标签: phpcrawl

我下载了最新版本的phpcrawler,我可以访问自己的测试网站。

我在这个网站上只有一张图片和一些文字,我运行了抓取工具,我收到的文字减去了图片,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");

我无法保存 tmp 文件它不保存我运行爬虫的文件夹中的唯一 tmp 文件,我试图保存一个名为没有运气。

我确实在所有php文件的不同行上遇到了许多折旧错误,例如:@fopen@导致不同区域的问题。我使用PHP,也可以Regex。 大卫。

1 个答案:

答案 0 :(得分:0)

我回答了自己的问题,因为我发现PHPCrawler个问题确实无法得到解答;我看到去年的一个问题没有回答。我也会回答它,虽然做任何好事都可能为时已晚。这就是答案。

我在修改过的phpcrawler中添加了我根据我的需求进行了调整:

$fp = fopen('c:/test/poopoo.txt','w');
fwrite($fp,($page_data['source'])); 
fclose($fp);

在刷新文件并创建类的实例之前放置它。

我发现使用this project中的PHP Simple HTML DOM Parser效果很好。如果您需要更多控制权使用RegExp,但这确实有一个陡峭的学习曲线。