我正在废弃一个网站(经过许可)。但是,在选择tr
的所有table
元素时,我的行为非常不正常
如果选择使用xpath它给我67长度,而如果我选择使用findall它给我3这是真的
工作实例
import urllib2
from lxml import html
from lxml import etree
import string
import csv
req_headers = {
'User-agent':
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.143 Safar/537.36'
}
anz_extra_url = u"https://sg.anz.com/apps/wealth/"
request = urllib2.Request(anz_extra_url, None, req_headers)
page = urllib2.urlopen(request).read()
parser = etree.HTMLParser()
table_root = etree.fromstring(page, parser)
all_tables = table_root.xpath("//table[@width=869]")
len(all_tables[1].findall("tr"))
#output = 3
len(all_tables[1].xpath("//tr"))
#output = 67
编辑:
all_tables [1]的结构如下所示
etree.tostring(all_tables[1])
#output
<table width="869" border="0" cellpadding="0" cellspacing="1"> \n <tr> \n <td width="35%" align="left" bgcolor="#004165" style="font-weight: bold; color: #FFFFFF; padding: 5px 15px;"> \n Placement Amount</td> \n <td width="65%" bgcolor="#004165" style="font-weight: bold; color: #FFFFFF; padding: 5px 15px;;" align="center"> \n 9-Month ANZ Instant Interest Time Deposit Interest Rate </td> \n </tr> \n <tr> \n <td align="left" style="padding: 5px 15px;"> \n SGD150,000 and above \n </td> \n <td align="center" style="padding: 5px 15px;"> \n 1.38% p.a. \n </td> \n </tr> \n <tr> \n <td align="left" bgcolor="#C6DFEA" style="padding: 5px 15px;"> \n Below SGD150,000</td> \n <td align="center" bgcolor="#C6DFEA" style="padding: 5px 15px;"> \n 0.70% p.a. \n </td> \n </tr> \n </table> \n \n
那为什么会这样呢?
谢谢
答案 0 :(得分:1)
xpath表达式//tr
匹配所有tr
元素,从文档根开始。如果您希望tr
元素是上下文的后代,则需要.//tr