自动从新闻来源抓取新新闻文章的最有效方法是什么?

时间:2019-12-08 18:25:33

标签: screen-scraping

我想构建一个新闻聚合器应用程序。我有一个问题,我不知道该如何从新闻网页获取新的新闻文章。 我用python编写了一个scraper脚本,在其中运行时,它会从源中获取所有新闻(在运行时间今天发布),并将它们保存到CSV文件中(我保存:URL,标题,日期,时间,图像URL ,类别,内容)。当我再次运行脚本时,它将检查CSV文件是否处理了URL,因此它不会写入重复的内容,只会写入新内容。最后,我想将这些结果写入数据库。 但是,使用此脚本,我必须定期运行该脚本(每10分钟说一次),以检查是否发布了新内容。 这是完成此操作的写方法吗? 在发布新内容时,是否有更好的方法收听新闻源? 如果这样做,该如何设置脚本定期运行? 非常感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

  

我再次运行脚本,它会检查CSV文件是否处理了URL,因此它不会写入重复的内容,只会写入新内容。

您可以添加问题:

  • 网站地址
  • 您已经完成的python代码

我对您的建议:从数据库获取最新的URL(例如100-200,该数字应与要刮取的网页上的URL编号相当),并对照网页上的当前URL进行检查。如果出现新网址,请抓取它们。