我想做一些类似于可读性的东西,它只从任何页面中提取文章文本并删除其他所有内容......
我使用file_get_contents
来获取网页,这很好用。
在我得到之后,如何使用PHP提取主要文章文本?
是否有插件或有办法吗?
答案 0 :(得分:2)
有许多库可以帮助您解析HTML,而且有很多关于它的问题(例如this one),但这不是您最大的问题。
您的问题将是如何确定主要文章的究竟是什么。您可以确定哪个元素具有最多<p>
个标记作为子元素,但我没有理由不创建完全不使用<p>
标记的CMS。
答案 1 :(得分:1)
有HTML parsers来帮助实际转换内容。
正如其他人所说,问题是确定 内容的哪些部分。如果没有全球采用的纯semantic markup(不是很棒吗?),你将会有一系列的反复试验来支持来自不同网站的各种内容。根据您想要支持的程度以及改变的频率,这条道路可能会变得很长。
刮痧数据并不像人们所希望的那样,而且人们希望这样做。