Question

我正试图从此页http://biz.yahoo.com/research/earncal/20151208.html

中搜集一些信息

我首先尝试抓住第一个公司名称ABM Industries Inc，但我得到并清空列表，并且无法找出原因。

from lxml import html
import requests   

def symbol_scrape(date): #20151208
    path = 'http://biz.yahoo.com/research/earncal/'+str(date)+'.html'

    page = requests.get(path)
    tree=html.fromstring(page.text)

    comp = tree.xpath('//body//p//table[@border="0"]//tr//td[@valign="top"]//table[@cellpadding="2"]//tr[3]//td[1]/text()')


    return comp

Answer 1

comp = tree.xpath('//table[@border="0"]//tr//td[@valign="top"]//table[@cellpadding="2"]//tr[3]//td[1]/text()')有效。

因此摆脱//body//p解决了问题

网络抓取，搞清楚路径

1 个答案: