识别页面的主要内容

时间:2009-08-03 02:42:10

标签: parsing semantics

鉴于HTML页面是文章较重的文章,我想识别并解析主要内容。

http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例,我想识别div#post-4438372351887392855,其中包含标题和文章。

我知道任何事情都不可能是完美的,或者100%的时间都在工作,但是有一种方法可以在合理的情况下给我预期的结果吗?

我目前的想法是迭代每个div,剥离标记,然后找到包含最多文本的最内层div。

此时,我刚刚开始,所以寻找输入我可以采用概念方法。或者,如果有什么东西,开源库会很好。

提前感谢您的见解。

2 个答案:

答案 0 :(得分:1)

arc90的一些人用readability bookmarklet做了相当令人印象深刻的工作。 它似乎可以很好地找到“主要”内容 - 在您完美列出的页面上工作 您可以查看他们评论良好的javascript(链接到书签中),但您可能希望联系开发人员以获取他们的想法和使用权限。

答案 1 :(得分:1)

用于主要内容提取的最完整的已编译资源列表是:

  1. Extracting article text from html documents
  2. List of resources: article text extraction from html documents
  3. 请注意评论,因为有额外的提示。