网络抓取,搞清楚路径

时间:2015-12-07 17:48:41

标签: python web-scraping

我正试图从此页http://biz.yahoo.com/research/earncal/20151208.html

中搜集一些信息

我首先尝试抓住第一个公司名称ABM Industries Inc,但我得到并清空列表,并且无法找出原因。

from lxml import html
import requests   

def symbol_scrape(date): #20151208
    path = 'http://biz.yahoo.com/research/earncal/'+str(date)+'.html'

    page = requests.get(path)
    tree=html.fromstring(page.text)

    comp = tree.xpath('//body//p//table[@border="0"]//tr//td[@valign="top"]//table[@cellpadding="2"]//tr[3]//td[1]/text()')


    return comp

1 个答案:

答案 0 :(得分:1)

comp = tree.xpath('//table[@border="0"]//tr//td[@valign="top"]//table[@cellpadding="2"]//tr[3]//td[1]/text()')有效。

因此摆脱//body//p解决了问题