Question

我正试图在此http://www.baseball-reference.com/teams/BOS/2013.shtml网页上抓取“团队击球”表格。我有两个问题。

我的玩家等级只有34，而不是43的总数。我不知道为什么会这样。代码中没有任何内容与34到35不同。
玩家位置只进入DH，然后再重复一次，让第一个DH之后的每个人都有相同的位置。前10个位置有一个“强”标记，所以我做了一个OR语句来做“强”而不强。显然这样做不对。

这是XPATH代码：

    item ['rank'] = stats.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()')[count].extract()
    item ['position'] = stats.select(('//table[@id="team_batting"]/tbody/tr/td[2]/strong/text()') or ('//table[@id="team_batting"]/tbody/tr/td[2]/text()'))[count].extract()
    item ['name'] = stats.select('//table[@id="team_batting"]/tbody/tr/td[3]/a/text()')[count].extract()

谢谢！

Answer 1

问题1：

你的XPath是对的，我测试了它并获得了所有43个节点。

>>> res = hxs.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()').extract()
>>> res
[u'1', u'2', u'3', u'4', u'5', u'6', u'7', u'8', u'9', u'10', u'11', u'12', u'13', u'14', u'15', u'16', u'17', u'18', u'19', u'20', u'21', u'22', u'23', u'24', u'25', u'26', u'27', u'28', u'29', u'30', u'31', u'32', u'33', u'34', u'35', u'36', u'37', u'38', u'39', u'40', u'41', u'42', u'43']
>>> len(res)
43

我认为你得到34可以用[count]对结果进行切片。所以你只得到结果的一部分。

>>> len(hxs.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()')[:34].extract())
34

<强> Issue2：

这样的or肯定不起作用。你可以改变你的XPath来获得文本，而不用担心是否有强烈的。

>>> res = hxs.select('//table[@id="team_batting"]/tbody/tr/td[2]//text()').extract()
                                                                 ^

使用//代替/。这将检索所有后代文本节点。你可以看到结果：

>>> res
[u'C', u'1B', u'2B', u'SS', u'3B', u'LF', u'CF', u'RF', u'DH', u'OF', u'IF', u'UT', u'C', u'OF', u'UT', u'3B', u'UT', u'UT', u'IF', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P']
>>> len(res)
43

我使用的代码段

>>> import urllib2
>>> from scrapy.selector import HtmlXPathSelector
>>> f = urllib2.urlopen('http://www.baseball-reference.com/teams/BOS/2013.shtml')
>>> hxs = HtmlXPathSelector(text=f.read())
>>> rank = hxs.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()').extract()
>>> position = hxs.select('//table[@id="team_batting"]/tbody/tr/td[2]//text()').extract()
>>> name = hxs.select('//table[@id="team_batting"]/tbody/tr/td[3]/a/text()').extract()

修改

hxs = HtmlXPathSelector(text=f.read()) divs = hxs.select('//div[@class="table_container"]') for div in divs: table = div.select('./table') item['rank'] = table.select('./tbody/tr/td[1]/text()').extract() ...

XPath Scrapy结果问题 - 或声明？

1 个答案: