我知道有lxml和BeautifulSoup,但这对我的项目不起作用,因为我事先并不知道我试图抓取一篇文章的网站的HTML格式是什么。是否存在类似于Readability的python类型模块,它能够很好地找到文章的内容并将其返回?
答案 0 :(得分:1)
可以使用PhantomJS(C ++)或PyPhantomJS(Python)。
它们都是无头的基于WebKit的浏览器,您可以从JavaScript完全控制它们。因为你可以用JavaScript控制它,我发现很容易做一些东西,比如刮掉文章的内容。
PyPhantomJS也有一个插件系统,所以这绝对是一个优点。 :)
答案 1 :(得分:0)
从内容页面中提取真实内容无法自动完成 - 至少不能使用标准工具。您必须定义/识别真实内容的存储位置(通过在您自己的HTML提取代码中指定相关的CSS ID或类)。
答案 2 :(得分:0)
使用HTQL,查询是: & html_main_text