我正在尝试构建一个网络抓取工具来收集来自多个博彩网站的博彩数据。我有一些编程经验,但我在网页,网页抓取等方面非常迷失。
我之前使用过Selenium来构建“机器人”,我想我可以用它做点什么,我也读了一些教程(urllib
,美丽的汤等等)但是所有这些教程都刮掉了非常简单的页面而我想要的似乎有点不同(JavaScript,也许?)
例如,此页面:
https://sportsbet.io/sports/pre-live/category/kq9kajLnphopJwuwh
我怎样才能获得赔率等事件?
答案 0 :(得分:1)
我发现Web Scraping with Python: Collecting Data from the Modern Web是一本很棒的书,没有任何网络抓取经验,只是假设你知道python的基础知识。
作者将向您介绍一些简单的场景,例如将基本的静态HTML页面一直刮到Javascript / Ajax上的站点,这些站点可能有一些防止抓取的保护。
一般来说,本书展示了使用BeautifulSoup
模块进行下载的示例以及用于解析html的String1
String2
String3
String4
String5
模块。
它还提供了一个示例,说明如何使用脚本来隐藏IP地址。
请注意,我与本书的卖家没有任何关系;只是因为我发现这本书非常有用,听起来你也会这样!