我下载了最新版本的phpcrawler
,我可以访问自己的测试网站。
我在这个网站上只有一张图片和一些文字,我运行了抓取工具,我收到的文字减去了图片,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");
我无法保存 tmp 文件它不保存我运行爬虫的文件夹中的唯一 tmp 文件,我试图保存一个名为没有运气。
我确实在所有php文件的不同行上遇到了许多折旧错误,例如:@fopen
,@
导致不同区域的问题。我使用PHP
,也可以Regex
。
大卫。
答案 0 :(得分:0)
我回答了自己的问题,因为我发现PHPCrawler
个问题确实无法得到解答;我看到去年的一个问题没有回答。我也会回答它,虽然做任何好事都可能为时已晚。这就是答案。
我在修改过的phpcrawler中添加了我根据我的需求进行了调整:
$fp = fopen('c:/test/poopoo.txt','w');
fwrite($fp,($page_data['source']));
fclose($fp);
在刷新文件并创建类的实例之前放置它。
我发现使用this project中的PHP Simple HTML DOM Parser
效果很好。如果您需要更多控制权使用RegExp
,但这确实有一个陡峭的学习曲线。