应用错误收集

算法在网页中找到“文章”？

时间：2012-09-13 08:07:26

标签： algorithm html-content-extraction

某些浏览器插件（如readability）可以从网页中提取“文章”。有没有人知道如何做到这一点？真实文章与广告或评论之间有什么区别？

1 个答案:

答案 0 :(得分：1)

嗯，这取决于你想要如何定义“真实文章”......

考虑到HTML5，网页由语义标签构成。页面不再需要使用<div>等完全没有语义含义的元素构建。在HTML5中，您可以使用<section>，<article>，<header> and so on。这些元素可以让应用程序很好地了解网页的主要内容（例如打印<article>和跳过<nav> ...）

当然，目前还没有多少页面使用这些标签。此外，标签可能会被滥用并失去意义。在那种情况下，我会坚持一些统计数据，例如选择HTML文档中的最大元素。此外，如果你必须刮一个网页，你可以使用一些模式匹配算法的修改，例如DIPRE。