html代码是盲目的,它包含html中的字符串“PRICE”。该部分字符串必须与html文本匹配。如果文本使用xpath匹配(部分匹配),则应返回特定的html标记路径。
注意:我需要为多个网站自动化此逻辑。我应该使用通用规则 (用于查找“价格”,获取父标签)
这是一个例子:
html="""<div id = "price_id">
<span id = "id1"></span>
<div class="price_class">
<bold>
<strong>
<label>PRICE:</label> 125 Rs.
</bold>
</strong>
</br>
</br>
</div>"""
我使用了lxml
from lxml.html.clean import Cleaner
cleaner =Cleaner(page_structure=False)
cl = cleaner.clean_html(html)
cleaned_html = fromstring(cl)
for element in cleaned_html:
if element.text == 'PRICE':
print "matched"
如何使用Xpath表达式编写?
我只需要使用xpath表达式获取div类路径。
另外问题是如果我找到“PRICE:”字符串。 我应该得到父级有效标记,即“div”,类名为“price_class”。 但在这里我应该跳过或删除不需要的标签,如字体,粗体,斜体......
请您建议我获取找到的字符串的父有效标记吗?
答案 0 :(得分:3)
您可以使用ancestor
轴:
import lxml.html
html = ...
doc = lxml.html.fromstring(html)
for element in doc.xpath('//label[contains(text(), "PRICE:")]/ancestor::div[@class="price_class"]'):
print 'Found %s: %s' % (element.tag, element.text_content().strip())
输出:
Found div: PRICE: 125 Rs.
编辑:修改后问题的更一般解决方案:
doc.xpath('//*[contains(text(), "PRICE:")]/\
ancestor::*[not(self::strong|self::bold|self::italic)][1]')
它将搜索包含文字“PRICE:
”的元素,然后选择第一个跳过strong
,bold
,italic
的祖先。您可以向排除列表添加更多标签。
您可以搜索第一个 good 祖先(例如div
,ul
等),而不是排除列表:
doc.xpath('//*[contains(text(), "PRICE:")]/ancestor::*[self::div|self::ul][1]')
答案 1 :(得分:0)
我只需要使用xpath表达式获取div类路径。
使用强>:
//*[contains(text(), 'PRICE')]/ancestor::div[1]/@class
另外问题是如果我找到“PRICE:”字符串。我应该这样做 获取具有类名“price_class”的父级有效标记“div”。 但在这里我应该跳过或删除不需要的标签,如 字体,加粗,斜体...
XPath是XML文档的查询语言。因此,它无法修改XML文档的结构。为此,必须使用另一种语言(托管XPath)。
XSLT是用于执行XML文档转换的最合适的语言,因为它是专门为此目的而设计的。