标签: python web-crawler web-scraping
我是数据抓取领域的新手,之前使用python进行Web和桌面应用程序开发。 我只是想知道,如果有任何方法可以从页面获取网址,那么请查看具体信息,如电话号码,地址等。
目前我正在使用BeautifulSoup和内置方法,我将urls作为方法的参数告诉。
我正在抓取的网站非常难以通过每页的特定网址。
是否有任何建议让它更快,更自我?
提前致谢。
答案 0 :(得分:3)
您可以使用Scrapy。它简化了抓取和解析(默认情况下使用libxml2进行解析)。
libxml2
答案 1 :(得分:0)
使用更高效的HTML解析器,例如lxml。 See here用于各种Python解析器的性能比较。