使用PHP从页面中提取主文本

时间:2011-12-30 18:45:00

标签: php

我想做一些类似于可读性的东西,它只从任何页面中提取文章文本并删除其他所有内容......

我使用file_get_contents来获取网页,这很好用。

在我得到之后,如何使用PHP提取主要文章文本?

是否有插件或有办法吗?

2 个答案:

答案 0 :(得分:2)

有许多库可以帮助您解析HTML,而且有很多关于它的问题(例如this one),但这不是您最大的问题。

您的问题将是如何确定主要文章的究竟是什么。您可以确定哪个元素具有最多<p>个标记作为子元素,但我没有理由不创建完全不使用<p>标记的CMS。

答案 1 :(得分:1)

HTML parsers来帮助实际转换内容。

正如其他人所说,问题是确定 内容的哪些部分。如果没有全球采用的纯semantic markup(不是很棒吗?),你将会有一系列的反复试验来支持来自不同网站的各种内容。根据您想要支持的程度以及改变的频率,这条道路可能会变得很长。

刮痧数据并不像人们所希望的那样,而且人们希望这样做。