寻找主要内容的启发式方法

时间:2011-02-17 05:31:20

标签: parsing nlp web-crawler

想知道是否有人可以指向学术论文的方向或启发式方法的相关实施,以找到特定网页的真实肉类内容。

显然这不是一项微不足道的任务,因为问题描述是如此模糊,但我认为我们都对页面主要内容的含义有一般性的了解。

例如,它可能包含新闻文章的故事文本,但可能不包括任何导航元素,法律免责声明,相关的故事戏弄,评论等。文章标题,日期,作者姓名和其他元数据属于灰色类别。

我认为这种方法的应用价值很大,并且期望谷歌在搜索算法中以某种方式使用它,所以在我看来这个主题过去曾被学者们所接受。

有任何参考资料吗?

2 个答案:

答案 0 :(得分:2)

查看此信息的一种方法是作为信息提取问题。

因此,一个高级算法将收集相同页面类型的多个示例,并推断出不同的页面部分的解析(或提取)规则(这可能是主要主题)。直觉是常见的样板(页眉,页脚等)和广告最终将出现在这些网页的多个示例中,因此通过对其中一些网页的培训,您可以快速开始可靠地识别此样板/附加代码,然后忽略它。它不是万无一失的,但这也是网络抓取技术的基础,包括商业和学术,如RoadRunner:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

引用是:

  

Valter Crescenzi,Giansalvatore Mecca,   Paolo Merialdo:RoadRunner:走向   大型自动数据提取   网站。 VLDB 2001:109-118

还有一个引用很多的提取技术调查:

  

Alberto H. F. Laender,Berthier A.   Ribeiro-Neto,Altigran S. da Silva,   Juliana S. Teixeira,简要调查   Web数据提取工具,ACM SIGMOD   记录,2002年6月第31号第2号   [DOI> 10.1145 / 565117.565137]

答案 1 :(得分:1)

要实现这一点,请查看"the Readability bookmarklet"它可以很好地消除噪音,只留下肉。在this stack overflow page处讨论了算法。