我是网络抓取的新手,我需要帮助来从python交互式图表中随时间推移从社交刀片网站上检索社交刀片网站上Dude Perfect YouTube频道的订户增长数据。WEB-PAGE上的第二张图包含我想要的数据。但是我发现我想要的所有数据都隐藏在860 x 160的画布中。如何刮取这些数据?这些数据不能被刮掉吗?请有人帮我提供所需的代码吗? WEB-PAGE Link
答案 0 :(得分:0)
数据被加载到<script>
标记中,它是XPath选择器:
\/html/body/div[15]/div[4]/div[1]/div[6]/script[2]
。
使用解析器(BeautifulSoup,lxml或纯正则表达式)提取该标记的innerHTML。
然后按照以下逻辑存储数据:日期,每月订阅。
这里是查找月度订阅的正则表达式:r“,(\ d +)\ n” 您可以将以下代码用于正则表达式:
import re
subs = []
regex_logic = re.compile(r',(\d+)\\n')
iter = re.finditer(regex_logic, PARSED_HTML_OF_PAGE)
for item in iter:
subs.append(item.group(1))
next(iter)