算法在网页中找到“文章”?

时间:2012-09-13 08:07:26

标签: algorithm html-content-extraction

某些浏览器插件(如readability)可以从网页中提取“文章”。有没有人知道如何做到这一点?真实文章与广告或评论之间有什么区别?

1 个答案:

答案 0 :(得分:1)

嗯,这取决于你想要如何定义“真实文章”......

考虑到HTML5,网页由语义标签构成。页面不再需要使用<div>等完全没有语义含义的元素构建。在HTML5中,您可以使用<section><article><header> and so on。这些元素可以让应用程序很好地了解网页的主要内容(例如打印<article>和跳过<nav> ...)

当然,目前还没有多少页面使用这些标签。此外,标签可能会被滥用并失去意义。在那种情况下,我会坚持一些统计数据,例如选择HTML文档中的最大元素。此外,如果你必须刮一个网页,你可以使用一些模式匹配算法的修改,例如DIPRE。