用Python抓住网页的页面

时间:2012-07-29 08:03:54

标签: python

我希望从一些网站上搜集一些内容进行研究,我希望使用python和网页抓取可能会加快我的进程。我之前使用python和美丽的汤来进行一个小项目将xml从一种格式转换为另一种格式。

1 个答案:

答案 0 :(得分:3)

根据您要提取的数据结构的冗余程度,您可以使用多种工具。

  • 如果您正在寻找始终存储在同一DOM结构中的提取数据,Scrapy可以完成这项工作。
  • 如果数据稀少且存储在各个地方,则BeautfulSoup4lxml可能对您有所帮助。
  • 如果数据是由某些JS代码生成的,请查看Selenium

以下是您可能会发现有用的几种资源: