python - 通过获取urls动态方式进行python抓取 - Thinbug

通过获取urls动态方式进行python抓取

时间：2011-04-22 11:24:50

标签： python web-crawler web-scraping

我是数据抓取领域的新手，之前使用python进行Web和桌面应用程序开发。我只是想知道，如果有任何方法可以从页面获取网址，那么请查看具体信息，如电话号码，地址等。

目前我正在使用BeautifulSoup和内置方法，我将urls作为方法的参数告诉。

我正在抓取的网站非常难以通过每页的特定网址。

是否有任何建议让它更快，更自我？

提前致谢。

2 个答案:

答案 0 :(得分：3)

您可以使用Scrapy。它简化了抓取和解析（默认情况下使用libxml2进行解析）。

答案 1 :(得分：0)

使用更高效的HTML解析器，例如lxml。 See here用于各种Python解析器的性能比较。