应用错误收集

使用Python抓取网站

时间：2012-01-09 17:32:04

标签： python selenium web-crawler

对于我的第一个抓取计划，我打算执行以下操作：

使用selenium打开以下网址：http://www.google.com/
收集所有相关链接
在结果页面上，枚举所有存在的http链接并将它们存储在csv中。
返回步骤2，但点击下一个

任何人都可以帮我一些帮助吗？（如果有帮助，我就在python 2.6.6上）

3 个答案:

答案 0 :(得分：4)

查看BeautifulSoup库，查找页面上的链接非常简单，并且已经有StackOverflow上的示例。

答案 1 :(得分：1)

IMO，lxml更容易使用并且具有pythonic API。请查看here以获取详细说明的示例。

答案 2 :(得分：0)

如果您的目标只是获取数据，您是否考虑过与Cars.com的人联系？他们可能能够为您提供Feed或API访问权限，假设您的最终目标是获取数据，而不仅仅是开发抓取程序。