如何使用硒从html5 canvas抓取数据

时间:2019-07-23 19:39:36

标签: python selenium-webdriver web-scraping html5-canvas

我是网络抓取的新手,我需要帮助来从python交互式图表中随时间推移从社交刀片网站上检索社交刀片网站上Dude Perfect YouTube频道的订户增长数据。WEB-PAGE上的第二张图包含我想要的数据。但是我发现我想要的所有数据都隐藏在860 x 160的画布中。如何刮取这些数据?这些数据不能被刮掉吗?请有人帮我提供所需的代码吗? WEB-PAGE Link

1 个答案:

答案 0 :(得分:0)

数据被加载到<script>标记中,它是XPath选择器: \/html/body/div[15]/div[4]/div[1]/div[6]/script[2]

使用解析器(BeautifulSoup,lxml或纯正则表达式)提取该标记的innerHTML。

然后按照以下逻辑存储数据:日期,每月订阅。

这里是查找月度订阅的正则表达式:r“,(\ d +)\ n” 您可以将以下代码用于正则表达式:

import re
subs = []
regex_logic = re.compile(r',(\d+)\\n')
iter = re.finditer(regex_logic, PARSED_HTML_OF_PAGE)
for item in iter:
    subs.append(item.group(1))
    next(iter)