我需要找到网页的主要内容并将其解压缩以保存在数据库中。
Evernote Webclipper和其他插件 - 我将它们用于Chrome - ,方便阅读网页,能够找到网页的主要内容并删除所有其他干扰,重新格式化文本更大的字体和一个更易读的字体系列。
我想构建一个类似的功能,因为我需要保存网站的特定页面,并仅保存其主要内容(条款和服务页面以及隐私政策),删除侧边栏,标题等等
我将使用Symfony的Crawler Component在PHP中构建这个东西,但我无法弄清楚如何评估每个标记以找到处理网页的主要内容。
有什么想法吗?
我想到的是计算p
标签的数量并计算它们的平均长度,因此,标签中p
的数量越高,它们的平均长度就越高给我一些指导......
答案 0 :(得分:0)
搜索引擎结果推动了网站的内容趋势。搜索引擎尝试提取有意义的内容以显示相关的搜索结果。随着搜索引擎的发展,Web开发人员致力于提供越来越高的内容。这导致优质网站中的数据结构良好。
大多数提取有意义内容的工具都会在语义上分析标记。搜索条件为semantic markup
和rich snippets
。