PHP - 如何从网页中删除所有标记(HTML JS PHP CSS JQUERY)

时间:2015-06-05 10:47:36

标签: javascript php jquery html css

我想要一个网页的内容。让我们说我想从这个网址获取example的内容,但是在这个页面上有HTML JS和其他标签,我想将它们全部删除。 到目前为止我所拥有的是

$raw_text = file_get_contents( 'http://www.booking.com/reviews/es/hotel/royal.html?aid=304142;sid=56e38d55a38ec2df6fe4622827e89675;dcid=1' );
$rm_html = strip_tags($raw_text);

如何删除所有类型的标签,并且只包含当前页面中的文字?

1 个答案:

答案 0 :(得分:0)

最简单的不是通过php自己实现某些东西,而是使用已经完成的东西,例如lynx文本浏览器:

lynx --dump http://some.example.org/page.html

这会将页面上找到的所有文本转储到标准输出,您可以在其中应用更多处理过滤器。当然你也可以使用shell方法将输出传输到文件或其他任何东西。如果您愿意,也可以在php中调用此方法,只要安装了该实用程序(或类似的内容,如links)。