查找包含文本的href链接

时间:2018-02-06 03:02:23

标签: xml xpath

我有一个像下面这样的xml。

<div id="test">    
    <div id="mw-normal-catlinks" class="mw-normal-catlinks">
        <a href="/wiki/Help:Category" title="Help:Category">Categories</a>:
        <ul>
            <li>
                <a href="/wiki/Category:1961_births" title="Category:1961 births">1961 births</a>
            </li>
            <li>
                <a href="/wiki/Category:Gadjah_Mada_University_alumni" title="Category:Gadjah Mada University alumni">Gadjah Mada University alumni</a>
            </li>
        </ul>
    </div>
    <div id="mw-hidden-catlinks" class="mw-hidden-catlinks mw-hidden-cats-hidden">
        <ul>
            <li>
                <a href="/wiki/Category:Pages_using_web_citations_with_no_URL" title="Category:Pages using web citations with no URL">Pages using web citations with no URL</a>
            </li>
            <li>
                <a href="/wiki/Category:CS1_Indonesian-language_sources_(id)" title="Category:CS1 Indonesian-language sources (id)">CS1 Indonesian-language sources (id)</a>
            </li>
        </ul>
    </div>
</div>

我想从[div id =“mw-normal-catlinks”]中提取“1961出生”类别,“Gadjah Mada大学校友”。

如果我使用以下xpath,我得到我想要的但xpath也提取“使用没有URL的网页引用的页面”和来自[div id =“mw-的”CS1印尼语言来源(id)“隐藏-catlinks“]。

//a[contains(@href,"/wiki/Category")]

使用下面的xpath我没有结果。

//DIV[@id="mw-normal-catlinks"]/a[contains(@href,"/wiki/Category")]

任何人都可以帮我找到正确的xpath吗?

1 个答案:

答案 0 :(得分:2)

这应该:.//div[@id="mw-normal-catlinks"]/ul//a。它会从a返回1961 births代码Gadjah Mada University alumnidiv[@id="mw-normal-catlinks"]