无论如何都要检查Python中的XPath是否有效?

时间:2015-02-24 21:46:19

标签: python html xml dom xpath

我有一个从表中提取一些信息的python代码。但事情有时是Xpath的变化。现在它只在两个不同的XPath之间发生变化,如下所示:

//*[@id='content-primary']/table[3]/tbody/tr[td[1]/span/span/

另一种选择是表格略有变化,如下所示:

//*[@id='content-primary']/table[2]/tbody/tr[td[1]/span/span/

这是我现在用来获取所需信息的代码:

rows_xpath = XPath("//*[@id='content-primary']/table[3]/tbody/tr[td[1]/span/span//text()='%s']" % (date))

所以我想做的是检查给定的XPath是否有效。如果不是我只是尝试其他XPath替代品。

希望有人可以帮我解决这个问题。谢谢大家。

EDIT1

<table class="clCommonGrid" cellspacing="0">
            <thead>
                <tr>
                    <td colspan="3">Kommande matcher</td>
                </tr>
                <tr>
                    <th style="width:1%;">Tid</th>
                    <th style="width:69%;">Match</th>
                    <th style="width:30%;">Arena</th>
                </tr>
            </thead>
            <tfoot>
            <tr>
                <td colspan="3">
                    <dl>
                        <dt class="clNotify">Röd text</dt>
                        <dd> = Ändrad matchtid&nbsp;</dd>
                        <dt><img src="http://svenskfotboll.se/i/u/alert.gif" alt="Röda utropstecknet" /></dt>
                        <dd> = Peka på utropstecknet så visas en notering&nbsp;</dd>
                        <dt><img src="http://svenskfotboll.se/i/widget.gif" alt="Widget" /></dt>
                        <dd><a href="http://gbgfotboll.se/widgets/?scr=cominginleague&amp;ftid=57109">Hämta widget för kommande matcher</a></dd>
                    </dl>
                </td>
            </tr>
        </tfoot>
            <tbody class="clGrid">

        <tr class="clTrOdd">
            <td nowrap="nowrap" class="no-line-through">
                <span class="matchTid"><span>2015-04-17<!-- br ok --> 19:15</span></span>  //This is the date i am checking with first



            </td>
            <td><a href="?scr=result&amp;fmid=2928398">Götene IF - Vårgårda IK </a></td>  // The other information that i need from the table later
            <td><a href="?scr=venue&amp;faid=16484">Sparbanksvallen Götene konstgräs </a> </td>
        </tr>

1 个答案:

答案 0 :(得分:0)

在我的情况下,我不需要指定从哪个表中提取信息。由于我将获得的信息是使用仅包含在该表中的日期指定的,所以我只使用了这段代码,这对我来说很好:

**rows_xpath = XPath("//*[@id='content-primary']/table/tbody/tr[td[1]/span/span//text()='%s']" % (date))**

现在它只是表,这意味着它将遍历网站中的两个表。它不是一个干净的解决方案,但对我有用..