我想监视公告网页,以便在收到新公告时,可以尽快执行任务。目前,我在请求包中使用python:
allText = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text
,然后找到带有文章标题对应的特定标题的文本的第一次出现:
ind = allText.find(''<li class="article-list-item">''); allText = allText[ind:]; ind = allText.find(''</a>''); allText = allText[0:ind]
我每1.5秒重复一次命令(即刷新页面)。
问题是:
速度不够快。在出现新网页后,程序通常需要3秒钟以上才能检测到它。我想查找文字会占用太多时间。有没有更快的方法?
在某些网站上,文章被隐藏,即使浏览器仍然可以看到,requests命令也不返回任何内容。该网页的示例源代码为:
<div data-app="recent-activity" data-url="/hc/api/internal/recent_activities">/div>
请问我该如何抓取这种页面?