检测网页中的实际内容(忽略页眉,页脚,导航等)

时间:2013-06-07 07:20:36

标签: javascript html html-parsing

寻找一种方法(客户端或服务器端)来检测网页的实际内容部分并删除其页眉,页脚和页面。导航。类似于亚马逊为Firefox发送的“发送到Kindle”插件的方式。解决方案可以是客户端(JavaScript)或服务器端。 我知道它不是一个100%可靠的解决方案,但我想知道是否有人已经用于此类问题的库/算法。

1 个答案:

答案 0 :(得分:1)

检查哪个<div>标记内容最多(真的不可靠),或者列出主要网站用来标记其主要内容标记并将其保存在数据库中的所有类名/ ID。你应该能够处理几千行,然后使用DOM解析页面以检查类名是否可用。

这可能不是最快的解决方案,但您可以加快速度,如果您映射某些网站,就会知道它们使用的是哪个类名。

修改 您仍然需要优化算法。例如:     

  • 如何处理存在的多个存储类名
  •         
  • 你做什么,如果不存在(显示整个页面?,只显示最大的div?
  •