想知道是否有人可以指向学术论文的方向或启发式方法的相关实施,以找到特定网页的真实肉类内容。
显然这不是一项微不足道的任务,因为问题描述是如此模糊,但我认为我们都对页面主要内容的含义有一般性的了解。
例如,它可能包含新闻文章的故事文本,但可能不包括任何导航元素,法律免责声明,相关的故事戏弄,评论等。文章标题,日期,作者姓名和其他元数据属于灰色类别。
我认为这种方法的应用价值很大,并且期望谷歌在搜索算法中以某种方式使用它,所以在我看来这个主题过去曾被学者们所接受。
有任何参考资料吗?
答案 0 :(得分:2)
查看此信息的一种方法是作为信息提取问题。
因此,一个高级算法将收集相同页面类型的多个示例,并推断出不同的页面部分的解析(或提取)规则(这可能是主要主题)。直觉是常见的样板(页眉,页脚等)和广告最终将出现在这些网页的多个示例中,因此通过对其中一些网页的培训,您可以快速开始可靠地识别此样板/附加代码,然后忽略它。它不是万无一失的,但这也是网络抓取技术的基础,包括商业和学术,如RoadRunner:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf
引用是:
Valter Crescenzi,Giansalvatore Mecca, Paolo Merialdo:RoadRunner:走向 大型自动数据提取 网站。 VLDB 2001:109-118
还有一个引用很多的提取技术调查:
Alberto H. F. Laender,Berthier A. Ribeiro-Neto,Altigran S. da Silva, Juliana S. Teixeira,简要调查 Web数据提取工具,ACM SIGMOD 记录,2002年6月第31号第2号 [DOI> 10.1145 / 565117.565137]
答案 1 :(得分:1)
要实现这一点,请查看"the Readability bookmarklet"它可以很好地消除噪音,只留下肉。在this stack overflow page处讨论了算法。