标签: xpath xml-parsing web-scraping
如何解析元标记,例如
<meta itemprop="email" content="email@example.com" class="">
..并从中提取电子邮件。
当我复制此标记的xPath时,我得到以下内容,但不起作用
//*[@id="businessDetailsPrimary"]/div[2]/div/meta
请告知。
非常感谢
答案 0 :(得分:3)
可能是itemprop="email"属性在整个网页中都是唯一的。在这种情况下,您可以通过content访问XPath属性来选择电子邮件,如下所示:
itemprop="email"
content
XPath
//meta[@itemprop="email"]/@content
<强> Demo 强>
如果itemprop="email"不是唯一的,您可以通过首先选择XPath等于id的元素来使您的businessDetailsPrimary更具体:
id
businessDetailsPrimary
//*[@id="businessDetailsPrimary"]//meta[@itemprop="email"]/@content