应用错误收集

时间：2011-07-01 04:31:32

标签： python algorithm screen-scraping beautifulsoup lxml

我知道有lxml和BeautifulSoup，但这对我的项目不起作用，因为我事先并不知道我试图抓取一篇文章的网站的HTML格式是什么。是否存在类似于Readability的python类型模块，它能够很好地找到文章的内容并将其返回？

答案 0 :(得分：1)

可以使用PhantomJS（C ++）或PyPhantomJS（Python）。

它们都是无头的基于WebKit的浏览器，您可以从JavaScript完全控制它们。因为你可以用JavaScript控制它，我发现很容易做一些东西，比如刮掉文章的内容。

PyPhantomJS也有一个插件系统，所以这绝对是一个优点。：）

答案 1 :(得分：0)

从内容页面中提取真实内容无法自动完成 - 至少不能使用标准工具。您必须定义/识别真实内容的存储位置（通过在您自己的HTML提取代码中指定相关的CSS ID或类）。

答案 2 :(得分：0)

使用HTQL，查询是：＆amp; html_main_text