parsing - 寻找主要内容的启发式方法

寻找主要内容的启发式方法

时间：2011-02-17 05:31:20

标签： parsing nlp web-crawler

想知道是否有人可以指向学术论文的方向或启发式方法的相关实施，以找到特定网页的真实肉类内容。

显然这不是一项微不足道的任务，因为问题描述是如此模糊，但我认为我们都对页面主要内容的含义有一般性的了解。

例如，它可能包含新闻文章的故事文本，但可能不包括任何导航元素，法律免责声明，相关的故事戏弄，评论等。文章标题，日期，作者姓名和其他元数据属于灰色类别。

我认为这种方法的应用价值很大，并且期望谷歌在搜索算法中以某种方式使用它，所以在我看来这个主题过去曾被学者们所接受。

有任何参考资料吗？

2 个答案:

答案 0 :(得分：2)

查看此信息的一种方法是作为信息提取问题。

因此，一个高级算法将收集相同页面类型的多个示例，并推断出不同的页面部分的解析（或提取）规则（这可能是主要主题）。直觉是常见的样板（页眉，页脚等）和广告最终将出现在这些网页的多个示例中，因此通过对其中一些网页的培训，您可以快速开始可靠地识别此样板/附加代码，然后忽略它。它不是万无一失的，但这也是网络抓取技术的基础，包括商业和学术，如RoadRunner：

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

引用是：

Valter Crescenzi，Giansalvatore Mecca， Paolo Merialdo：RoadRunner：走向大型自动数据提取网站。 VLDB 2001：109-118

还有一个引用很多的提取技术调查：

Alberto H. F. Laender，Berthier A. Ribeiro-Neto，Altigran S. da Silva， Juliana S. Teixeira，简要调查 Web数据提取工具，ACM SIGMOD 记录，2002年6月第31号第2号 [DOI＆GT; 10.1145 / 565117.565137]

答案 1 :(得分：1)

要实现这一点，请查看"the Readability bookmarklet"它可以很好地消除噪音，只留下肉。在this stack overflow page处讨论了算法。