通过获取urls动态方式进行python抓取

时间:2011-04-22 11:24:50

标签: python web-crawler web-scraping

我是数据抓取领域的新手,之前使用python进行Web和桌面应用程序开发。 我只是想知道,如果有任何方法可以从页面获取网址,那么请查看具体信息,如电话号码,地址等。

目前我正在使用BeautifulSoup和内置方法,我将urls作为方法的参数告诉。

我正在抓取的网站非常难以通过每页的特定网址。

是否有任何建议让它更快,更自我?

提前致谢。

2 个答案:

答案 0 :(得分:3)

您可以使用Scrapy。它简化了抓取和解析(默认情况下使用libxml2进行解析)。

答案 1 :(得分:0)

使用更高效的HTML解析器,例如lxmlSee here用于各种Python解析器的性能比较。