Python-是否有一个模块可以自动从网页上删除文章的内容?

时间:2011-07-01 04:31:32

标签: python algorithm screen-scraping beautifulsoup lxml

我知道有lxml和BeautifulSoup,但这对我的项目不起作用,因为我事先并不知道我试图抓取一篇文章的网站的HTML格式是什么。是否存在类似于Readability的python类型模块,它能够很好地找到文章的内容并将其返回?

3 个答案:

答案 0 :(得分:1)

可以使用PhantomJS(C ++)或PyPhantomJS(Python)。

它们都是无头的基于WebKit的浏览器,您可以从JavaScript完全控制它们。因为你可以用JavaScript控制它,我发现很容易做一些东西,比如刮掉文章的内容。

PyPhantomJS也有一个插件系统,所以这绝对是一个优点。 :)

答案 1 :(得分:0)

从内容页面中提取真实内容无法自动完成 - 至少不能使用标准工具。您必须定义/识别真实内容的存储位置(通过在您自己的HTML提取代码中指定相关的CSS ID或类)。

答案 2 :(得分:0)

使用HTQL,查询是: & html_main_text