我必须从网页上抓取数据。问题是内容不包含在div或任何其他标记中。我找到的唯一分隔我需要的数据块的元素如下表所示。它没有id或类,但它确实包含只在该表中找到的图像。
<table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="97%" height="25">
<hr size="2" noshade color="7B4023">
</td>
<td width="3%" height="25">
<img src="../../images/term.gif" width="20" height="20"></td>
</tr>
</table>
你能想到使用该表作为分隔符将html拆分成块的方法吗? 提前致谢。 圣塞瓦斯蒂安
答案 0 :(得分:0)
对于您的示例,在将网页加载到简单的html dom之后,您可以在字符串$ html上使用preg_split:
$chunks = preg_split("/(<table )/",$html,null,PREG_SPLIT_DELIM_CAPTURE);
foreach ($chunks as $chunk) {
echo $chunk;
}
我使用了preg_split而不是explod,以便将分隔符保留在块中。