从特定表中提取链接

时间:2019-06-05 18:27:22

标签: php xpath simple-html-dom

我有一个包含许多html表的html代码。我想从上面具有特定div的特定链接中提取链接。

这是我的示例代码:

        <div class="boxuniwersal_header">Table 1</div>
        <img src="img/boxuniwersal_top.gif" width="210" height="18" alt="" style="margin-top: 5px" />
        <div class="boxuniwersal_content">
          <div class="boxuniwersal_subcontent">
            <div class='menu_m1'><table cellpadding="3"><tr><td><a href="http://link.com"><img src="some.jpg"  width="45" /></a></td><td><a href="http://link.com">Some text</a></td></tr></table></div>
            <br />
          </div>
        </div>
        <!-- /box  -->

        <!-- box  -->
        <div class="boxuniwersal_header">Table 2</div>
        <img src="img/boxuniwersal_top.gif" width="210" height="18" alt="" style="margin-top: 5px" />
        <div class="boxuniwersal_content">
          <div class="boxuniwersal_subcontent">
            <div class='menu_m1'><table cellpadding="3"><tr><td><a href="http://link2.com"><img src="some2.jpg"  width="45" /></a></td><td><a href="http://link2.com">Some text2</a></td></tr></table></div>
            <br />
          </div>
        </div>
$domXPath = new DOMXPath($domDocument);
$results = $domXPath->query("//div/div/table/tr/td/a|//table//tr/td//a"); //querying domdocument
foreach($results as $result)
{
    $links[]=$result->getAttribute("href");
}

此代码返回所有链接。我只想获取Table1中的链接。有可能吗?

1 个答案:

答案 0 :(得分:0)

您的主要问题是仅调整XPath表达式以选择正确的XML。

如果您将XPath更改为

//div[text()="Table 1"]/following-sibling::div[1]//table//a

首先要做的是找到<div>元素,其文本是您的后继文本。

following-sibling::div[1]部分将在与已选择的<div>元素相同的级别上查看第一个<div>元素(这是<table>所在的元素)。

最后一部分只是在封闭的<a>中查找所有<table>元素。