如何在xpath中选择特定模式中的特定字符串

时间:2014-12-18 09:47:10

标签: regex xpath scrapy

我想在</span><br/>之间选择一个字符串,例如

<span class="pl">制片国家/地区:</span>
中国大陆
<br/>

当然我将所有这些中文单词转换为Unicode格式  在这里,我想选择&#34;中国大陆&#34;从这个HTML文件。  我用这种方式尝试使用xpath和regex:

sel.xpath("*").re(r'制片国家/地区:</span>\s*(.*)<br/>')

它应该是&#34;中国大陆&#34;但是我得到一个空字符串。我应该怎么做

1 个答案:

答案 0 :(得分:1)

您可以使用它来选择文字:

//span[@class="pl"]/following-sibling::text()[1]
  • //span[@class="pl"] - 在文档的任何级别找到具有类pl(确切)的范围...
  • /following-sibling::text()[1] - ...并接下来的下一个文本节点。