应用错误收集

时间：2016-12-20 14:35:14

标签： php html symfony web-crawler

我需要找到网页的主要内容并将其解压缩以保存在数据库中。

Evernote Webclipper和其他插件 - 我将它们用于Chrome - ，方便阅读网页，能够找到网页的主要内容并删除所有其他干扰，重新格式化文本更大的字体和一个更易读的字体系列。

我想构建一个类似的功能，因为我需要保存网站的特定页面，并仅保存其主要内容（条款和服务页面以及隐私政策），删除侧边栏，标题等等

我将使用Symfony的Crawler Component在PHP中构建这个东西，但我无法弄清楚如何评估每个标记以找到处理网页的主要内容。

有什么想法吗？

我想到的是计算p标签的数量并计算它们的平均长度，因此，标签中p的数量越高，它们的平均长度就越高给我一些指导......

答案 0 :(得分：0)

搜索引擎结果推动了网站的内容趋势。搜索引擎尝试提取有意义的内容以显示相关的搜索结果。随着搜索引擎的发展，Web开发人员致力于提供越来越高的内容。这导致优质网站中的数据结构良好。

大多数提取有意义内容的工具都会在语义上分析标记。搜索条件为semantic markup和rich snippets。