应用错误收集

时间：2009-08-03 02:42:10

标签： parsing semantics

鉴于HTML页面是文章较重的文章，我想识别并解析主要内容。

以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例，我想识别div＃post-4438372351887392855，其中包含标题和文章。

我知道任何事情都不可能是完美的，或者100％的时间都在工作，但是有一种方法可以在合理的情况下给我预期的结果吗？

我目前的想法是迭代每个div，剥离标记，然后找到包含最多文本的最内层div。

此时，我刚刚开始，所以寻找输入我可以采用概念方法。或者，如果有什么东西，开源库会很好。

提前感谢您的见解。

答案 0 :(得分：1)

arc90的一些人用readability bookmarklet做了相当令人印象深刻的工作。它似乎可以很好地找到“主要”内容 - 在您完美列出的页面上工作您可以查看他们评论良好的javascript（链接到书签中），但您可能希望联系开发人员以获取他们的想法和使用权限。

答案 1 :(得分：1)

用于主要内容提取的最完整的已编译资源列表是：

请注意评论，因为有额外的提示。