Question

html代码是盲目的，它包含html中的字符串“PRICE”。该部分字符串必须与html文本匹配。如果文本使用xpath匹配（部分匹配），则应返回特定的html标记路径。

注意：我需要为多个网站自动化此逻辑。我应该使用通用规则（用于查找“价格”，获取父标签）

这是一个例子：

html="""<div id = "price_id">
  <span id = "id1"></span>
  <div class="price_class">
   <bold>
   <strong>
   <label>PRICE:</label> 125 Rs.
   </bold>
   </strong>
   </br>
   </br>

</div>"""

我使用了lxml

 from lxml.html.clean import Cleaner     

 cleaner =Cleaner(page_structure=False)
 cl = cleaner.clean_html(html)
 cleaned_html = fromstring(cl)

 for element in cleaned_html:
      if element.text == 'PRICE':
          print "matched"

如何使用Xpath表达式编写？

我只需要使用xpath表达式获取div类路径。

另外问题是如果我找到“PRICE：”字符串。我应该得到父级有效标记，即“div”，类名为“price_class”。但在这里我应该跳过或删除不需要的标签，如字体，粗体，斜体......

请您建议我获取找到的字符串的父有效标记吗？

Answer 1

您可以使用ancestor轴：

import lxml.html

html = ...
doc = lxml.html.fromstring(html)

for element in doc.xpath('//label[contains(text(), "PRICE:")]/ancestor::div[@class="price_class"]'):
    print 'Found %s: %s' % (element.tag, element.text_content().strip())

输出：

Found div: PRICE: 125 Rs.

编辑：修改后问题的更一般解决方案：

doc.xpath('//*[contains(text(), "PRICE:")]/\
          ancestor::*[not(self::strong|self::bold|self::italic)][1]')

它将搜索包含文字“PRICE:”的元素，然后选择第一个跳过strong，bold，italic的祖先。您可以向排除列表添加更多标签。

您可以搜索第一个 good 祖先（例如div，ul等），而不是排除列表：

doc.xpath('//*[contains(text(), "PRICE:")]/ancestor::*[self::div|self::ul][1]')

Answer 2

我只需要使用xpath表达式获取div类路径。

使用：

//*[contains(text(), 'PRICE')]/ancestor::div[1]/@class

另外问题是如果我找到“PRICE：”字符串。我应该这样做获取具有类名“price_class”的父级有效标记“div”。但在这里我应该跳过或删除不需要的标签，如字体，加粗，斜体...

XPath是XML文档的查询语言。因此，它无法修改XML文档的结构。为此，必须使用另一种语言（托管XPath）。

XSLT是用于执行XML文档转换的最合适的语言，因为它是专门为此目的而设计的。

使用xpath获取部分字符串匹配的html标记

2 个答案: