以json格式从网站中抓取元素

时间:2020-07-04 14:13:09

标签: python json screen-scraping

网站https://www.sofascore.com/ru/tennis

有一个正在运行的电报机器人,该站点的布局发生了变化,并且该机器人启动了。告诉我所选值来自何处。解析匹配得分。第一个链接指向比赛本身,第二个链接指向玩家和他的名字的元素。我不明白第二个突出显示的链接来自何处。因为如果您打开开发者面板,该按钮将不存在。

图片:

enter image description here

代码:

import requests
import lxml.etree
import time
import json
from telegram.ext import Updater, CommandHandler

parser = lxml.etree.HTMLParser(encoding = 'utf-8')

class Event:
    def __getEvent(self):
        r = requests.get(url='https://www.sofascore.com/event/{}/general/json?_={}'.format(self.id, int(time.time())))
        return r.json()

    def __getPlayer(self, id):
        r = requests.get(url='https://www.sofascore.com/team/tennis/a/{}'.format(id))
        r.encoding = 'utf-8'
        tree = lxml.etree.fromstring(r.text, parser = parser)
        name = tree.xpath("/html/body/div[1]/main/div/div[2]/div/div[1]/div[1]/div[1]/div[2]/h3")[0].text
        return {
            'id': id,
            'name': name.strip()
        }

0 个答案:

没有答案