你知道是否有任何函数(PHP)清理一些HTML代码(用cURL获得)并过滤可见文本(浏览器将显示的那个)。 感谢
答案 0 :(得分:4)
这比你想象的要难。一个明显的简单解决方案是在其上运行strip_tags(),但这只会删除标签并保留所有文本内容,包括嵌入式javascript和CSS,以及通常隐藏的元素内的所有文本(例如通过设置{{1 }} 在他们)。您可以尝试使用一些正则表达式魔法来过滤掉您不感兴趣的部分,但HTML上的正则表达式对于任何非常重要的事情通常都是一个坏主意。我担心,最终的解决方案是使用正确的HTML解析器,然后从生成的DOM树中提取实际文本 - 当你拥有它时,你将非常接近实现Web浏览器。
答案 1 :(得分:1)
看看strip_tags():
答案 2 :(得分:0)
如果您只是“清理”代码,那么solution like TIDY could be your answer。
Some solutions like this将允许您提取纯文本并可能减轻您的痛苦。
然而,“完全开启”解析是另外一个故事,你最好还是在你的正则表达式上。