如何使用PHP从HTML中提取纯文本和ImageUrl

时间:2015-07-23 03:20:09

标签: php android regex

我在我的Android应用中使用了丰富的text editor,它通过将富文本解析为HTML来实现。

但是现在,我想从这些HTML中获取包含纯文本和一些图像的抽象,因此我决定使用PHP在服务器端提取纯文本和图像。一开始,我试图通过正则表达式来做(应该非常复杂),但对于嵌入式工程师来说似乎太难了。

有人能给我一些建议吗?

2 个答案:

答案 0 :(得分:0)

您应该避免使用正则表达式来解析HTML(请参阅How do you parse and process HTML/XML in PHP?Using regular expressions to parse HTML: why not?)。考虑使用PHP HTML解析库,例如:

示例

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';

答案 1 :(得分:0)

非常感谢alashow添加了与simplehtmldom(第三方库)相关的示例,我在项目中使用了该库,并且除了运行速度稍慢外,效果非常好。

获取HTML中的所有纯文本,只需一行!

 $keyDetailHTML = str_get_html($keyDetailXMLString);
 $keyTextString=$keyDetailHTML ->plaintext;

获取所有img就像代码alashow show。