标签: c# web-crawler diff
我需要系统地和以编程方式检测大量网页内容何时发生重大变化。
基本上我会说如果某个百分比的内容发生变化超过预定义的阈值。
我需要经常这样做,所以为了限制处理时间,我需要一种优化的方法。
我从来没有做过这样的事情,但我想有一些算法已经开发出来了,也许是一些库,这样做呢?
由于它涉及保留页面的副本,我想知道是否有一种方法来压缩HTML,或者以某种方式缩小它以减小尺寸并仍然能够将其与新版本进行比较。
过去任何人都遇到过同样的问题,可以给我建议吗?