为了帮助我学习Python,我决定从“实时”页面(例如here)屏蔽ESPNFC网站上的足球评论。
直到一天前工作,但最终排除了一些东西,我去测试它,我回来的唯一一条评论是[u'Commentary Not Available']。
有没有人知道他们是如何做到的,以及任何简单快捷的方法?我正在使用Scrapy / Xpath和Urllib2。
编辑//
for game_id in processQueue:
data_text = getInformation(game_id)
clean_events_dict = getEvents(data_text)
break
与
的作用不同i = getInformation(369186)
j = getEvents(i)
在第一个示例中,processQueue是一个包含game_ids的列表。第一个是给脚本开始抓取的。在它有机会转移到另一个game_id
之前就已经打破了在第二个示例中,我使用了一个游戏ID。
第一个失败,第二个失败,我完全不知道为什么。有什么想法吗?
答案 0 :(得分:0)
您可以尝试一些事情,假设您仍然可以从浏览器访问数据。但请记住,网站运营商通常都有权阻止您;这就是为什么依赖于抓取单个站点的项目是一个冒险的主张。他们在这里:
我通常认为还有其他策略不太符合道德规范:
我suggest in this answer here应该设置刮刀以服从robots.txt。但是,如果您对刮刀进行编程以使其表现良好,那么网站运营商就会有更少的理由来解决您的问题。我在Stack Overflow标签中看到的最常见的错误就是刮刀运行得太快,并且它们意外地导致(次要)拒绝服务。所以,首先尝试减慢你的擦伤,看看是否有帮助。