应用错误收集

检测网页中的实际内容（忽略页眉，页脚，导航等）

时间：2013-06-07 07:20:36

标签： javascript html html-parsing

寻找一种方法（客户端或服务器端）来检测网页的实际内容部分并删除其页眉，页脚和页面。导航。类似于亚马逊为Firefox发送的“发送到Kindle”插件的方式。解决方案可以是客户端（JavaScript）或服务器端。我知道它不是一个100％可靠的解决方案，但我想知道是否有人已经用于此类问题的库/算法。

1 个答案:

答案 0 :(得分：1)

检查哪个<div>标记内容最多（真的不可靠），或者列出主要网站用来标记其主要内容标记并将其保存在数据库中的所有类名/ ID。你应该能够处理几千行，然后使用DOM解析页面以检查类名是否可用。

这可能不是最快的解决方案，但您可以加快速度，如果您映射某些网站，就会知道它们使用的是哪个类名。

修改您仍然需要优化算法。例如：

如何处理存在的多个存储类名

你做什么，如果不存在（显示整个页面？，只显示最大的div？

相关问题

在wordpress中显示没有额外页眉/页脚/等的页面

如何隐藏页面源中的实际内容

检测网页中的实际内容（忽略页眉，页脚，导航等）

主页面标题导航

使用相同页眉/页脚/导航/等的选项。整个网站？

在qooxdoo独立应用程序中定义页眉，页脚，导航，主页等

页眉/页脚之间的内容

打印带页眉页脚内容的html页面

在我的网站上从页脚到页眉导航

无法更改Wordpress上的紫色主题-页脚，页眉，导航等

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？