我该如何刮擦起初的投手并导入至Excel?

时间:2018-08-06 00:05:27

标签: python web-scraping request lxml

我该如何刮起初始投手并导入到Excel中?

到目前为止,这是我的代码。

from urllib.request import urlopen
from lxml import html

response = urlopen("https://www.baseball-reference.com/previews/index.shtml")
content = response.read()
tree = html.fromstring(content)

1 个答案:

答案 0 :(得分:2)

我会让你开始。首先,除非您喜欢xpath,否则要使用cssselect:

import cssselect

然后,您只需找出要迭代的css:

for div in tree.cssselect('.game_summaries'):
  for a in div.cssselect('table:nth-child(2) a'):
    print(a.text)

您可以从浏览器的元素检查器中找到css(最好是Chrome)。