从网站获取大量数据:我应该使用Scrapy还是urllib2?

时间:2015-02-12 19:25:48

标签: python web-scraping web-crawler scrapy

我不是编程新手 - 但对于网络抓取来说是非常(非常)新手。我想以这种方式从this网站获取数据:

  1. 从给定的URL获取团队数据并将其存储在某个文本文件中。
  2. “点击”每个团队成员的链接,并将 数据存储在其他文本文件中。
  3. 单击各种其他特定链接并将数据存储在其自己的单独文本文件中。
  4. 同样,我对此很新。我尝试使用 urllib2 打开指定的网站(希望能够使用BeautifulSoup解析它),但打开它会导致超时。

    最终,我想做一些事情,比如指定一个团队的脚本URL,并让所述脚本更新团队,其玩家以及不同链接中的各种其他内容的相关文本文件。

    考虑到我想做什么,学习如何创建网络爬虫或直接通过urllib2做事会更好吗?我的印象是蜘蛛更快,但基本上会随机点击链接,除非被告知不这样做(我不知道这种印象是否准确)。

0 个答案:

没有答案