示例HTML:
<div class"classX">
<a href="#" class="aClass">Link Text 1</a>
<span class="sClass"><p>Text #1</p></span>
</div>
<div class="classX">
<a href="#" class="aClass">Link Text 2</a>
</div>
<div class="classX">
<a href="#" class="aClass">Link Text 3</a>
</div>
<div class="classX">
<a href="#" class="aClass">Link Text 4</a>
<span class="sClass"><p>Text #4</p></span>
</div>
<div class="classX">
<a href="#" class="aClass">Link Text 5</a>
<span class="sClass"><p>Text #5</p></span>
</div>
我正在尝试构建一个看起来像这样的数组:
[0] => Array
(
[link_text] => Link Text 1
[span_text] => Text #1
)
[1] => Array
(
[link_text] => Link Text 2
)
[2] => Array
(
[link_text] => Link Text 3
)
[3] => Array
(
[link_text] => Link Text 4
[span_text] => Text #4
)
[4] => Array
(
[link_text] => Link Text 5
[span_text] => Text #5
)
但是使用带有foreach
值的$key
循环会错误地组织输出,而是会得到一个如下所示的数组:
[0] => Array
(
[link_text] => Link Text 1
[span_text] => Text #1
)
[1] => Array
(
[link_text] => Link Text 2
[span_text] => Text #4
)
[2] => Array
(
[link_text] => Link Text 3
[span_text] => Text #5
)
[3] => Array
(
[link_text] => Link Text 4
)
[4] => Array
(
[link_text] => Link Text 5
)
我完全理解为什么会发生这种情况,因为我在访问link_text
值时使用span_text
键,但我不知道如何正确构建一个数组正确的组合。
PHP:
$finder = new DomXPath($dom);
$link_texts= $finder->query("//a[contains(@class, normalize-space('aClass'))]");
$span_text= $finder->query("//span[contains(@class,'sClass')]/@data-html");
foreach ($link_texts as $key => $link_text) {
if (empty($span_text[$key]->textContent)) {
$link_text = trim($link_text->textContent);
$dataArr[] = str_replace("\n", " ", $link_text);
$data[] = array("link_text"=>str_replace("\n", " ", $link_text));
} else {
$span_text = str_replace("\n", " ", $span_text[$key]->textContent);
$span_text = preg_replace('~</?p[^>]*>~', '', $span_text);
$link_text = trim($link_text->textContent);
$data[] = array("link_text"=>str_replace("\n", " ", $link_text), "span_text"=>$span_text);
}
}
答案 0 :(得分:1)
我认为从选择所有父<div class"classX">
元素开始会更容易。然后,我们可以为每个a
选择嵌套的span
和div
元素。
$finder = new DomXPath($dom);
$divs = $finder->query("//div[@class='classX']");
$data = array();
foreach($divs as $div) {
$link = $finder->query("./a[@class='aClass']", $div)->item(0);
$span = $finder->query("./span[@class='sClass']", $div)->item(0);
$items = array(
"link_text" => $link ? $link->textContent : null,
"span_text" => $span ? $span->textContent : null
);
$data[] = array_filter($items);
}
print_r($data);
这将生成一个$data
数组,其中包含正确顺序的所有link_text
和span_text
项。
array_filter
删除了空值,因此某些嵌套数组没有span_text
键。
如果需要一定数量的项目,请不要使用$items
数组。