鉴于HTML页面是文章较重的文章,我想识别并解析主要内容。
以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例,我想识别div#post-4438372351887392855,其中包含标题和文章。
我知道任何事情都不可能是完美的,或者100%的时间都在工作,但是有一种方法可以在合理的情况下给我预期的结果吗?
我目前的想法是迭代每个div,剥离标记,然后找到包含最多文本的最内层div。
此时,我刚刚开始,所以寻找输入我可以采用概念方法。或者,如果有什么东西,开源库会很好。
提前感谢您的见解。
答案 0 :(得分:1)
arc90的一些人用readability bookmarklet做了相当令人印象深刻的工作。 它似乎可以很好地找到“主要”内容 - 在您完美列出的页面上工作 您可以查看他们评论良好的javascript(链接到书签中),但您可能希望联系开发人员以获取他们的想法和使用权限。
答案 1 :(得分:1)
用于主要内容提取的最完整的已编译资源列表是: