应用错误收集

lxml XML工具包是C库libxml2的Pythonic绑定和libxslt。它的独特之处在于它结合了速度和XML 这些库的完整性具有简单性原生Python API，大多兼容但优于众所周知的 ElementTree API。

Beautiful Soup是一个用于解析HTML文档的Python库（包括格式错误的标记，即非封闭标记，如此命名标签汤后）。它为可以解析的页面创建一个解析树用于从HTML中提取数据，因此该库对Web很有用抓取 - 从网站提取数据。

Scrapy是一种快速的高级屏幕抓取和网络抓取框架，用于抓取网站并从中提取结构化数据他们的页面。它可以用于广泛的目的，从数据采矿到监测和自动化测试。

超文本查询语言（HTQL）是一种用于查询和查询的语言转换HTML，XML和纯文本文档。 HTQL是使用快速高效的数据提取算法在C ++中开发。 HTQL提供COM和Python接口，用于JavaScript，Visual 基础，.NET，ASP和Python应用程序。

使用Python进行有状态的程序化网页浏览。