从网络废料中提取段落

时间:2018-06-08 06:36:22

标签: php arrays dom

我正在使用以下代码提取特定网页的内容。

 $html = new DOMDocument();
@$html->loadHtmlFile($url); 
  $xpath = new DOMXPath( $html );
  $raws = $xpath->query( '/html/body/div[2]/table/tbody/tr/td/div[1]|//*[@id="content"]');
        foreach ($raws as $raw) {
  echo $html->saveHtml($raw)."\n"; }

我得到的结果是这种格式:

paragraph of text
<br>
<br>
paragraph of text
<br>
<br>
...

此外,所有内容都作为单一数据被删除。我现在面临的问题是我无法将这些数据拆分或划分为多个部分。这个问题有什么解决方案吗?例如,我想显示文本段落,但添加图片而不是&lt; br&gt;。有人可以在这个问题上启发我吗?

0 个答案:

没有答案