Question

我下载了最新版本的phpcrawler，我可以访问自己的测试网站。

我在这个网站上只有一张图片和一些文字，我运行了抓取工具，我收到的文字减去了图片，因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");

我无法保存 tmp 文件它不保存我运行爬虫的文件夹中的唯一 tmp 文件，我试图保存一个名为没有运气。

我确实在所有php文件的不同行上遇到了许多折旧错误，例如：@fopen，@导致不同区域的问题。我使用PHP，也可以Regex。大卫。

Answer 1

我回答了自己的问题，因为我发现PHPCrawler个问题确实无法得到解答;我看到去年的一个问题没有回答。我也会回答它，虽然做任何好事都可能为时已晚。这就是答案。

我在修改过的phpcrawler中添加了我根据我的需求进行了调整：

$fp = fopen('c:/test/poopoo.txt','w');
fwrite($fp,($page_data['source'])); 
fclose($fp);

在刷新文件并创建类的实例之前放置它。

我发现使用this project中的PHP Simple HTML DOM Parser效果很好。如果您需要更多控制权使用RegExp，但这确实有一个陡峭的学习曲线。