我试图在Toys R Us的页面上抓一个特定领域......
http://www.toysrus.com/product/index.jsp?productId=13157031
选择器"价格"。
这一切都通过页面加载工作了一段时间,然后它再也没有工作过。有些网站有办法阻止人们抓取他们的内容吗?我对此有点新意,请保持温柔。我使用Wordpress,WP-Web-Scraper以及以下代码作为页面中的代码:
Price:
[wpws url="http://www.toysrus.com/product/index.jsp?productId=13157031"
selector="price" on_error="error_show" user-agent="diaperbot"]
答案 0 :(得分:2)
markratledge是对的。需要考虑的是立即改变您的用户代理,这样您就无法识别自己。这是一个常用/最受欢迎代理列表的有用链接:http://techblog.willshouse.com/2012/01/03/most-common-user-agents/。此外,您的IP是另一件大事。如果您只使用1个IP进行刮擦,具体取决于您的音量,您可能会很快被阻止。您可能需要使用代理。我们在那里有很多,从免费到收费。我发现Ntrepid的工具很有用(https://ion.ntrepidcorp.com/)。
答案 1 :(得分:1)
某些网站是否有办法阻止人们抓取内容?
是的,他们这样做。他们可能在您的查询中检测到用户代理并阻止了您的IP。
为什么呢?阅读有关下载其内容的服务条款:http://www.toysrus.com/helpdesk/index.jsp?display=safety&subdisplay=terms
WP插件非常原始。如果您想更有效地抓取网站并获得更好的结果,请使用python,这是一种专门用于抓取的语言。查看http://www.google.com/search?q=python+scraper+tutorial
答案 2 :(得分:0)
网络抓取器some issues with cache,将面部时间设置为0!