使用Python抓取网站

时间:2012-01-09 17:32:04

标签: python selenium web-crawler

对于我的第一个抓取计划,我打算执行以下操作:

  1. 使用selenium打开以下网址:http://www.google.com/
  2. 收集所有相关链接
  3. 在结果页面上,枚举所有存在的http链接并将它们存储在csv中。
  4. 返回步骤2,但点击下一个
  5. 任何人都可以帮我一些帮助吗? (如果有帮助,我就在python 2.6.6上)

3 个答案:

答案 0 :(得分:4)

查看BeautifulSoup库,查找页面上的链接非常简单,并且已经有StackOverflow上的示例。

答案 1 :(得分:1)

IMO,lxml更容易使用并且具有pythonic API。请查看here以获取详细说明的示例。

答案 2 :(得分:0)

如果您的目标只是获取数据,您是否考虑过与Cars.com的人联系?他们可能能够为您提供Feed或API访问权限,假设您的最终目标是获取数据,而不仅仅是开发抓取程序。