Question

我是网络抓取的新手，我需要帮助来从python交互式图表中随时间推移从社交刀片网站上检索社交刀片网站上Dude Perfect YouTube频道的订户增长数据。WEB-PAGE上的第二张图包含我想要的数据。但是我发现我想要的所有数据都隐藏在860 x 160的画布中。如何刮取这些数据？这些数据不能被刮掉吗？请有人帮我提供所需的代码吗？ WEB-PAGE Link

Answer 1

数据被加载到<script>标记中，它是XPath选择器： \/html/body/div[15]/div[4]/div[1]/div[6]/script[2]。

使用解析器（BeautifulSoup，lxml或纯正则表达式）提取该标记的innerHTML。

然后按照以下逻辑存储数据：日期，每月订阅。

这里是查找月度订阅的正则表达式：r“，（\ d +）\ n” 您可以将以下代码用于正则表达式：

import re
subs = []
regex_logic = re.compile(r',(\d+)\\n')
iter = re.finditer(regex_logic, PARSED_HTML_OF_PAGE)
for item in iter:
    subs.append(item.group(1))
    next(iter)

如何使用硒从html5 canvas抓取数据

1 个答案: