我正试图从此页http://biz.yahoo.com/research/earncal/20151208.html
中搜集一些信息我首先尝试抓住第一个公司名称ABM Industries Inc
,但我得到并清空列表,并且无法找出原因。
from lxml import html
import requests
def symbol_scrape(date): #20151208
path = 'http://biz.yahoo.com/research/earncal/'+str(date)+'.html'
page = requests.get(path)
tree=html.fromstring(page.text)
comp = tree.xpath('//body//p//table[@border="0"]//tr//td[@valign="top"]//table[@cellpadding="2"]//tr[3]//td[1]/text()')
return comp
答案 0 :(得分:1)
comp = tree.xpath('//table[@border="0"]//tr//td[@valign="top"]//table[@cellpadding="2"]//tr[3]//td[1]/text()')
有效。
因此摆脱//body//p
解决了问题