我正在寻找一个系统来从网页中提取主题或简单的关键字,仅从指定的页面中提取,而不是按照所包含的链接。
要分析的页面属于不同的网站,特别是我想分析一个人在Facebook上分享的链接,并从这些页面中提取主题或简单的关键字。
我想使用Python,但欢迎任何建议。
非常感谢。
答案 0 :(得分:3)
lxml XML工具包是C库libxml2的Pythonic绑定 和libxslt。它的独特之处在于它结合了速度和XML 这些库的完整性具有简单性 原生Python API,大多兼容但优于众所周知的 ElementTree API。
Beautiful Soup是一个用于解析HTML文档的Python库 (包括格式错误的标记,即非封闭标记,如此命名 标签汤后)。它为可以解析的页面创建一个解析树 用于从HTML中提取数据,因此该库对Web很有用 抓取 - 从网站提取数据。
Scrapy是一种快速的高级屏幕抓取和网络抓取 框架,用于抓取网站并从中提取结构化数据 他们的页面。它可以用于广泛的目的,从数据 采矿到监测和自动化测试。
超文本查询语言(HTQL)是一种用于查询和查询的语言 转换HTML,XML和纯文本文档。 HTQL是 使用快速高效的数据提取算法在C ++中开发。 HTQL提供COM和Python接口,用于JavaScript,Visual 基础,.NET,ASP和Python应用程序。
使用Python进行有状态的程序化网页浏览。