我想抓博客'发布并将它们存储到我的数据库中。为了安排废料我将在我的服务器上做conjob。但是我在解决问题时遇到了问题。我不想重新擦除所有内容,我想编写脚本以检查是否有新帖子然后将其保存到我的数据库中。
我的挑战是不同的博客可能有各种模式,我认为其中一种方法是在数据库中获取日期和最新帖子的日期。但如果帖子没有约会怎么办?比较字符串?这是一种可靠的方法吗?
答案 0 :(得分:0)
为什么不使用他们的RSS源?大多数博客都有一个,如果他们这样做,就不需要抓取。
RSS是一个简单的XML文件,您可以阅读并与您拥有的内容进行比较(如RSS阅读器)。
如果他们的整个帖子在RSS中不可见(可能不是),那么只需按照Feed中的网址获取他们的帖子,如果这就是你想要的。