获取类的所有元素,它们的值是一些单词

时间:2013-07-13 16:14:19

标签: xpath

我有这个html来源:

<table class="uiInfoTable profileInfoTable uiInfoTableFixed">
    <tbody>
        <tr>
            <th class="label">Birthday</th>
            <td class="data">February 4, 1988</td>
        </tr>
    </tbody>
    <tbody>
        <tr>
            <th class="label">Interested In</th>
            <td class="data">women</td>
        </tr>
    </tbody>
    <tbody>
        <tr>
            <th class="label">Gender</th>
            <td class="data">male</td>
        </tr>
    </tbody>
    //           etc....        
</table>

我希望得到thtd的{​​{1}}的所有值:生日,感兴趣,关系状态和语言..

我知道它应该是这样的:

th

任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:1)

我发现了三个主要问题:

  • 在字符串中换行以进行比较
  • 错误的元素名称(a代替tablespan而不是其他任何内容)
  • 拼写错误“感兴趣”

无论如何,您最好选择具有匹配表格标题单元格的所有<tr/>元素,然后选择所有匹配的子元素。您也可以省略实际could do harmtext()来电。

这将有效:

//table[@class='uiInfoTable profileInfoTable uiInfoTableFixed']//tr[
  th[
    @class='label' and
    (.='Birthday' or .='Interested In' or .='Relationship Status' or .='Languages')
  ]
]/*[local-name() = 'th' or local-name() = 'td']

这是一个XPath 1.0解决方案,它也适用于较新的XPath版本。使用较新的XPath版本,您可以更改为更短的

//table[@class='uiInfoTable profileInfoTable uiInfoTableFixed']//tr[
  th[@class='label' and
  . = ('Birthday', 'Interested In', 'Relationship Status', 'Languages')]
]/(td, th)