应用错误收集

可以使用scrapy来代替urllib。

您可以使用beautifulsoup代替regex。

但是scrapy和beautifulsoup使您的生活更轻松。

Scrapy，不是简单的库，因此您可以使用requests或urllib。

我认为python网站抓取中最好的，最受欢迎的，易于学习和使用的库是请求，lxml和BeautifulSoup的最新版本为bs4，摘要“请求”使我们向网站的服务器发出HTML请求以检索页面上的数据。获取网页的HTML内容是抓取网页的首要步骤。

让我们看一下Requests Python库的优缺点

优势：

缺点：

我们知道请求库无法解析从网页检索到的HTML。因此，我们需要lxml，高性能，快速，生产质量的HTML和XML解析Python库。

让我们看一下lxml Python库的优缺点。

优势：

缺点：

BeautifulSoup可能是Web抓取中使用最广泛的Python库。它创建了一个解析树，用于解析HTML和XML文档。 Beautiful Soup会自动将传入文档转换为Unicode，将传出文档转换为UTF-8。

Beautiful Soup库的一个主要优点是，它可以与设计欠佳的HTML一起很好地工作，并具有很多功能。精美汤和请求的组合在业界非常普遍。

优势：

缺点：

如果您想学习如何使用Beautiful Soup抓取网页，本教程适合您：

顺便说一下，您可以尝试使用许多库，例如Scrapy，用于Web Scraping的Selenium库，正则表达式和urllib