某些浏览器插件(如readability)可以从网页中提取“文章”。有没有人知道如何做到这一点?真实文章与广告或评论之间有什么区别?
答案 0 :(得分:1)
嗯,这取决于你想要如何定义“真实文章”......
考虑到HTML5,网页由语义标签构成。页面不再需要使用<div>
等完全没有语义含义的元素构建。在HTML5中,您可以使用<section>
,<article>
,<header>
and so on。这些元素可以让应用程序很好地了解网页的主要内容(例如打印<article>
和跳过<nav>
...)
当然,目前还没有多少页面使用这些标签。此外,标签可能会被滥用并失去意义。在那种情况下,我会坚持一些统计数据,例如选择HTML文档中的最大元素。此外,如果你必须刮一个网页,你可以使用一些模式匹配算法的修改,例如DIPRE。