如何在网页上查找内容根标记

时间:2016-12-20 14:35:14

标签: php html symfony web-crawler

我需要找到网页的主要内容并将其解压缩以保存在数据库中。

Evernote Webclipper和其他插​​件 - 我将它们用于Chrome - ,方便阅读网页,能够找到网页的主要内容并删除所有其他干扰,重新格式化文本更大的字体和一个更易读的字体系列。

我想构建一个类似的功能,因为我需要保存网站的特定页面,并仅保存其主要内容(条款和服务页面以及隐私政策),删除侧边栏,标题等等

我将使用Symfony的Crawler Component在PHP中构建这个东西,但我无法弄清楚如何评估每个标记以找到处理网页的主要内容。

有什么想法吗?

我想到的是计算p标签的数量并计算它们的平均长度,因此,标签中p的数量越高,它们的平均长度就越高给我一些指导......

1 个答案:

答案 0 :(得分:0)

搜索引擎结果推动了网站的内容趋势。搜索引擎尝试提取有意义的内容以显示相关的搜索结果。随着搜索引擎的发展,Web开发人员致力于提供越来越高的内容。这导致优质网站中的数据结构良好。

大多数提取有意义内容的工具都会在语义上分析标记。搜索条件为semantic markuprich snippets