从网页中提取主题/关键字

时间:2014-04-11 14:50:17

标签: python web-scraping keyword

我正在寻找一个系统来从网页中提取主题或简单的关键字,仅从指定的页面中提取,而不是按照所包含的链接。

要分析的页面属于不同的网站,特别是我想分析一个人在Facebook上分享的链接,并从这些页面中提取主题或简单的关键字。

我想使用Python,但欢迎任何建议。

非常感谢。

1 个答案:

答案 0 :(得分:3)

LXML

  

lxml XML工具包是C库libxml2的Pythonic绑定   和libxslt。它的独特之处在于它结合了速度和XML   这些库的完整性具有简单性   原生Python API,大多兼容但优于众所周知的   ElementTree API。

Beautiful Soup

  

Beautiful Soup是一个用于解析HTML文档的Python库   (包括格式错误的标记,即非封闭标记,如此命名   标签汤后)。它为可以解析的页面创建一个解析树   用于从HTML中提取数据,因此该库对Web很有用   抓取 - 从网站提取数据。

Scrapy

  

Scrapy是一种快速的高级屏幕抓取和网络抓取   框架,用于抓取网站并从中提取结构化数据   他们的页面。它可以用于广泛的目的,从数据   采矿到监测和自动化测试。

HTQL

  

超文本查询语言(HTQL)是一种用于查询和查询的语言   转换HTML,XML和纯文本文档。 HTQL是   使用快速高效的数据提取算法在C ++中开发。   HTQL提供COM和Python接口,用于JavaScript,Visual   基础,.NET,ASP和Python应用程序。

mechanize

  

使用Python进行有状态的程序化网页浏览。