网页变更监控

时间:2018-11-16 13:26:02

标签: python html html5

我想监视公告网页,以便在收到新公告时,可以尽快执行任务。目前,我在请求包中使用python:

allText = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text

,然后找到带有文章标题对应的特定标题的文本的第一次出现:

ind = allText.find(''<li class="article-list-item">''); allText = allText[ind:]; ind = allText.find(''</a>''); allText = allText[0:ind]

我每1.5秒重复一次命令(即刷新页面)。

问题是:

  1. 速度不够快。在出现新网页后,程序通常需要3秒钟以上才能检测到它。我想查找文字会占用太多时间。有没有更快的方法?

  2. 在某些网站上,文章被隐藏,即使浏览器仍然可以看到,requests命令也不返回任何内容。该网页的示例源代码为:

    <div data-app="recent-activity" data-url="/hc/api/internal/recent_activities">/div>

请问我该如何抓取这种页面?

0 个答案:

没有答案