scraperwiki:为什么我的刮刀适用于1个网址而不是另一个?

时间:2013-03-02 03:42:09

标签: php screen-scraping scraperwiki

这是我的第一个刮刀https://scraperwiki.com/scrapers/my_first_scraper_1/

我设法抓住google.com而不是这个页面。

http://subeta.net/pet_extra.php?act=read&petid=1014561

任何原因?

我已经按照此处的文档进行操作。

https://scraperwiki.com/docs/php/php_intro_tutorial/

并且没有理由为什么代码不起作用。

1 个答案:

答案 0 :(得分:0)

看起来您正在指定查找特定元素。元素的变化取决于您正在抓取的网站。因此,如果找不到您正在寻找的元素,您将无法获得回报。此外,我将研究创建自己的卷曲/蜘蛛工具。你不仅会学到很多东西,而且会发现很多关于如何刮取网站的信息。

另一方面,您可能不想考虑遵守您正在抓取的网站上的robots.txt文件或在刮取之前征得许可,因为它被视为不礼貌。