xthon“// tr”和etree.findall在python中进行抓取时的奇怪行为

时间:2015-02-22 05:39:43

标签: python python-2.7 parsing xpath elementtree

我正在废弃一个网站(经过许可)。但是,在选择tr的所有table元素时,我的行为非常不正常 如果选择使用xpath它给我67长度,而如果我选择使用findall它给我3这是真的 工作实例

import urllib2
from lxml import html
from lxml import etree
import string
import csv

req_headers = {
    'User-agent':
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.143 Safar/537.36'
    }
anz_extra_url = u"https://sg.anz.com/apps/wealth/"
request = urllib2.Request(anz_extra_url, None, req_headers)
page = urllib2.urlopen(request).read()
parser = etree.HTMLParser()
table_root = etree.fromstring(page, parser)
all_tables = table_root.xpath("//table[@width=869]")
len(all_tables[1].findall("tr"))
#output = 3
len(all_tables[1].xpath("//tr"))
#output = 67

编辑:
all_tables [1]的结构如下所示

etree.tostring(all_tables[1])
#output
<table width="869" border="0" cellpadding="0" cellspacing="1">&#13;\n                            <tr>&#13;\n                                <td width="35%" align="left" bgcolor="#004165" style="font-weight: bold; color: #FFFFFF; padding: 5px 15px;">&#13;\n                                    Placement Amount</td>&#13;\n                                <td width="65%" bgcolor="#004165" style="font-weight: bold; color: #FFFFFF; padding: 5px 15px;;" align="center">&#13;\n                                    9-Month ANZ Instant Interest Time Deposit Interest Rate                                </td>&#13;\n                            </tr>&#13;\n                            <tr>&#13;\n                                <td align="left" style="padding: 5px 15px;">&#13;\n                                    SGD150,000 and above&#13;\n                                </td>&#13;\n                                <td align="center" style="padding: 5px 15px;">&#13;\n                                    1.38% p.a.&#13;\n                                </td>&#13;\n                            </tr>&#13;\n                            <tr>&#13;\n                                <td align="left" bgcolor="#C6DFEA" style="padding: 5px 15px;">&#13;\n                                    Below SGD150,000</td>&#13;\n                                <td align="center" bgcolor="#C6DFEA" style="padding: 5px 15px;">&#13;\n                                    0.70% p.a.&#13;\n                                </td>&#13;\n                            </tr>&#13;\n                        </table>&#13;\n                        \n

那为什么会这样呢?

谢谢

1 个答案:

答案 0 :(得分:1)

xpath表达式//tr匹配所有tr元素,从文档根开始。如果您希望tr元素是上下文的后代,则需要.//tr