Google App Engine上的Python脚本,仅从网站上删除更新

时间:2015-07-30 06:42:24

标签: python google-app-engine web-scraping

我在Google App Engine上托管一个Python脚本,该脚本使用bs4和mechanize来废弃网站的新闻部分,它每2小时运行一次并向我发送所有新闻的电子邮件。

问题是,我只想将最新新闻作为邮件发送,截至目前,它每次都会向我发送所有新闻。

我将所有新闻存储在一个列表中,有没有办法只发送最新消息,而这些消息还没有邮寄给我,而不是每次都是完整的列表?

1 个答案:

答案 0 :(得分:1)

网站上没有RSS或API等吗?

无论如何,您可以将已删除的新闻标题列表(可能不是唯一的)/ ID / URL存储为数据存储区中的实体ID,然后将其发送到您的电子邮件中。在发送电子邮件之前,您首先要检查数据存储区中是否存在新闻ID,而不包括那些内容。

或者取决于文章发布的结构和可用的数据(他们是否有一个实用的帖子ID?他们是否有发布文章的日期?)你可能只需要记住文章的最高价值您以前的报废,只发送电子邮件给您自己的文章,其值高于以前保存的那些。