需要知道页面的主要DIV

时间:2012-10-27 08:19:23

标签: javascript jquery html web

我正在尝试制定一种检测网站主要内容DIV的策略。主要内容div表示:包含网站标题,正文和页脚的div。

检测它是一个非常困难和缓慢的过程。

例如,在http://www.goo.ne.jp/上,我会检测到id =“bodyWrapper”或“minWidthInbox”,因为这些div包含网站上的主要内容。

我也尝试过很多算法。但由于奇怪的网站结构和不一致性,所有网站都无法通过单一算法运行。

表布局特别难以检测。 : - (

我该如何解决这个问题?

1 个答案:

答案 0 :(得分:3)

您应该查看可读性http://www.readability.com/。他们开发了一种算法来提取网页内容并删除所有其他元素,如页眉,页脚,广告。

不幸的是他们的算法不再公开了。他们在这里有一个API:http://www.readability.com/developers/api

还有一些原始算法的实现。我在Python上使用了库,在NodeJS上使用了一个(https://github.com/arrix/node-readability),它们运行得很好。

关于主要div的问题,除非您要删除特定网站,否则我不建议您搜索这样一段特定代码。在我看来,你似乎是在追随内容,当然网站的html代码几乎可以包含所有内容,而不仅仅是主要内容。