Question

我正试图从这个网站http://www.soccerstats.com/latest.asp?league=england中删除目录。我在python中使用scrapy来获取此表中的详细信息。

<div id="league-table-data" style="text-align:center;clear:both;">
        </div>

我尝试了很多xpath表达式。首先，我只是尝试使用

在该表中首先获得团队名称

hxs.select('//div[contains(@id, "league-table")]/div[descendant::td[contains(@align, "left")]]/a/text()').extract()

但是，它返回一个空列表。任何想法我怎么能使它工作？谢谢。

Answer 1

看起来你只需要：

>>> hxs.select('//*[@id="league-table-data"]/table/tr/td/a/text()').extract() 
[u'Manchester Utd', u'Manchester City', u'Chelsea', u'Arsenal', u'Tottenham', u'Everton', u'Liverpool', u'West Bromwich', u'Swansea City', u'West Ham Utd', u'Norwich City', u'Fulham', u'Stoke City', u'Southampton', u'Aston Villa', u'Newcastle Utd', u'Sunderland', u'Wigan Athletic', u'Reading', u'QP Rangers']

Quick Tip: Getting The XPath In Google Chrome.

无法获取屏幕抓取的xpath

1 个答案: