我在我的Android应用中使用了丰富的text editor,它通过将富文本解析为HTML来实现。
但是现在,我想从这些HTML中获取包含纯文本和一些图像的抽象,因此我决定使用PHP在服务器端提取纯文本和图像。一开始,我试图通过正则表达式来做(应该非常复杂),但对于嵌入式工程师来说似乎太难了。
有人能给我一些建议吗?
答案 0 :(得分:0)
您应该避免使用正则表达式来解析HTML(请参阅How do you parse and process HTML/XML in PHP?或Using regular expressions to parse HTML: why not?)。考虑使用PHP HTML解析库,例如:
示例强>
// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');
// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';
答案 1 :(得分:0)
非常感谢alashow添加了与simplehtmldom(第三方库)相关的示例,我在项目中使用了该库,并且除了运行速度稍慢外,效果非常好。
获取HTML中的所有纯文本,只需一行!
$keyDetailHTML = str_get_html($keyDetailXMLString);
$keyTextString=$keyDetailHTML ->plaintext;
获取所有img就像代码alashow show。