简单的html dom将html分成块,表格作为分隔符

时间:2014-05-15 15:42:54

标签: html simple-html-dom scrape

我必须从网页上抓取数据。问题是内容不包含在div或任何其他标记中。我找到的唯一分隔我需要的数据块的元素如下表所示。它没有id或类,但它确实包含只在该表中找到的图像。

<table width="100%" border="0" cellpadding="0" cellspacing="0">
   <tr> 
    <td width="97%" height="25"> 
      <hr size="2" noshade color="7B4023">
    </td>
    <td width="3%" height="25">
    <img src="../../images/term.gif" width="20" height="20"></td>
   </tr>
</table>

你能想到使用该表作为分隔符将html拆分成块的方法吗? 提前致谢。 圣塞瓦斯蒂安

1 个答案:

答案 0 :(得分:0)

对于您的示例,在将网页加载到简单的html dom之后,您可以在字符串$ html上使用preg_split:

$chunks = preg_split("/(<table )/",$html,null,PREG_SPLIT_DELIM_CAPTURE);

foreach ($chunks as $chunk) {
    echo $chunk;
}

我使用了preg_split而不是explod,以便将分隔符保留在块中。