使用XPath将dom内容正确分类到Array中

时间:2018-05-20 10:36:27

标签: php xpath

示例HTML:

<div class"classX">
<a href="#" class="aClass">Link Text 1</a>
<span class="sClass"><p>Text #1</p></span>
</div>

<div class="classX">
<a href="#" class="aClass">Link Text 2</a>
</div>

<div class="classX">
<a href="#" class="aClass">Link Text 3</a>
</div>

<div class="classX">
<a href="#" class="aClass">Link Text 4</a>
<span class="sClass"><p>Text #4</p></span>
</div>

<div class="classX">
<a href="#" class="aClass">Link Text 5</a>
<span class="sClass"><p>Text #5</p></span>
</div>

我正在尝试构建一个看起来像这样的数组:

 [0] => Array
        (
            [link_text] => Link Text 1
            [span_text] => Text #1
        )

    [1] => Array
        (
            [link_text] => Link Text 2
        )

    [2] => Array
        (
            [link_text] => Link Text 3
        )

    [3] => Array
        (
            [link_text] => Link Text 4
            [span_text] => Text #4
        )

    [4] => Array
        (
            [link_text] => Link Text 5
            [span_text] => Text #5
        )

但是使用带有foreach值的$key循环会错误地组织输出,而是会得到一个如下所示的数组:

 [0] => Array
        (
            [link_text] => Link Text 1
            [span_text] => Text #1
        )

    [1] => Array
        (
            [link_text] => Link Text 2
            [span_text] => Text #4
        )

    [2] => Array
        (
            [link_text] => Link Text 3
            [span_text] => Text #5
        )

    [3] => Array
        (
            [link_text] => Link Text 4
        )

    [4] => Array
        (
            [link_text] => Link Text 5
        )

我完全理解为什么会发生这种情况,因为我在访问link_text值时使用span_text键,但我不知道如何正确构建一个数组正确的组合。

PHP:

$finder = new DomXPath($dom);
$link_texts= $finder->query("//a[contains(@class, normalize-space('aClass'))]");
$span_text= $finder->query("//span[contains(@class,'sClass')]/@data-html");


foreach ($link_texts as $key => $link_text) {

    if (empty($span_text[$key]->textContent)) {
        $link_text = trim($link_text->textContent);
        $dataArr[] = str_replace("\n", " ", $link_text);
        $data[] = array("link_text"=>str_replace("\n", " ", $link_text));
    } else {
        $span_text = str_replace("\n", " ", $span_text[$key]->textContent);
        $span_text = preg_replace('~</?p[^>]*>~', '', $span_text);
        $link_text = trim($link_text->textContent);
        $data[] = array("link_text"=>str_replace("\n", " ", $link_text), "span_text"=>$span_text);
    }

}

1 个答案:

答案 0 :(得分:1)

我认为从选择所有父<div class"classX">元素开始会更容易。然后,我们可以为每个a选择嵌套的spandiv元素。

$finder = new DomXPath($dom);
$divs = $finder->query("//div[@class='classX']");
$data = array();

foreach($divs as $div) {
    $link = $finder->query("./a[@class='aClass']", $div)->item(0);
    $span = $finder->query("./span[@class='sClass']", $div)->item(0);
    $items = array(
        "link_text" => $link ? $link->textContent : null, 
        "span_text" => $span ? $span->textContent : null
    );
    $data[] = array_filter($items);
}

print_r($data);

这将生成一个$data数组,其中包含正确顺序的所有link_textspan_text项。

array_filter删除了空值,因此某些嵌套数组没有span_text键。
如果需要一定数量的项目,请不要使用$items数组。