应用错误收集

自动从新闻来源抓取新新闻文章的最有效方法是什么？

时间：2019-12-08 18:25:33

标签： screen-scraping

我想构建一个新闻聚合器应用程序。我有一个问题，我不知道该如何从新闻网页获取新的新闻文章。我用python编写了一个scraper脚本，在其中运行时，它会从源中获取所有新闻（在运行时间今天发布），并将它们保存到CSV文件中（我保存：URL，标题，日期，时间，图像URL ，类别，内容）。当我再次运行脚本时，它将检查CSV文件是否处理了URL，因此它不会写入重复的内容，只会写入新内容。最后，我想将这些结果写入数据库。但是，使用此脚本，我必须定期运行该脚本（每10分钟说一次），以检查是否发布了新内容。这是完成此操作的写方法吗？在发布新内容时，是否有更好的方法收听新闻源？如果这样做，该如何设置脚本定期运行？非常感谢您的帮助。

1 个答案:

答案 0 :(得分：0)

我再次运行脚本，它会检查CSV文件是否处理了URL，因此它不会写入重复的内容，只会写入新内容。

您可以添加问题：

网站地址
您已经完成的python代码

我对您的建议：从数据库获取最新的URL（例如100-200，该数字应与要刮取的网页上的URL编号相当），并对照网页上的当前URL进行检查。如果出现新网址，请抓取它们。