更正元素的Xpath

时间:2016-01-05 13:36:25

标签: python xpath lxml

我正试图从this page抓取一些数据。

我在python中使用request和lxml来执行此操作。 具体来说,我想要检测到的主题的ID。

我为他们写了以下Xpath:

'//detectedTopic//@id'

这没有任何回报。

以下工作没有任何问题:

'//@id'

Chrome中的开发人员工具显示第一个Xpath确实指向了正确的节点。

它有什么问题呢?

2 个答案:

答案 0 :(得分:2)

如果您使用lxml.html来解析内容,那么HTMLParser会使所有标记自HTML is case-insensitive起小写:

import requests
url = 'http://wikipedia-miner.cms.waikato.ac.nz/services/wikify?source=At%20around%20the%20size%20of%20a%20domestic%20chicken,%20kiwi%20are%20by%20far%20the%20smallest%20living%20ratites%20and%20lay%20the%20largest%20egg%20in%20relation%20to%20their%20body%20size%20of%20any%20species%20of%20bird%20in%20the%20world'
r = requests.get(url)
content = r.content

import lxml.html as LH
html_root = LH.fromstring(content)
print(LH.tostring(html_root))

产量

...
   <detectedtopics>
      <detectedtopic id="17362" title="Kiwi" weight="0.8601778098224363"></detectedtopic>
      <detectedtopic id="21780446" title="Species" weight="0.6213590253455182"></detectedtopic>
      <detectedtopic id="160220" title="Ratite" weight="0.5533763404831633"></detectedtopic>
      <detectedtopic id="37402" title="Chicken" weight="0.528161911497278"></detectedtopic>
   </detectedtopics>

但如果您使用lxml.etree将内容解析为XML,则案例不会更改:

import lxml.etree as ET
xml_root = ET.fromstring(content)
print(ET.tostring(xml_root))

产量

...
   <detectedTopics>
      <detectedTopic id="17362" title="Kiwi" weight="0.8601778098224363"/>
      <detectedTopic id="21780446" title="Species" weight="0.6213590253455182"/>
      <detectedTopic id="160220" title="Ratite" weight="0.5533763404831633"/>
      <detectedTopic id="37402" title="Chicken" weight="0.528161911497278"/>
   </detectedTopics>

内容看起来像XML而不是HTML,因此您应该使用:

print(xml_root.xpath('//detectedTopic/@id'))
['17362', '21780446', '160220', '37402']

如果内容被解析为HTML,则XPath需要小写:

print(html_root.xpath('//detectedtopic/@id'))
['17362', '21780446', '160220', '37402']

答案 1 :(得分:0)

你可以通过这个获得ID:

'//detectedTopic/@id'

您还可以获取标记并提取所需的属性。例如:

for tag in tr.xpath('//detectedTopic'):
    print tag.attrib.get('id')
    print tag.attrib.get('title')