我需要跟踪网站内容的变化:我的用户有一个他们想要监控的网站列表,并在这些网站的内容更新时收到提醒。我知道有一些工具可以做到这一点:firefox插件,如check 4更改,更新扫描仪等。但是,我需要从我的应用程序执行此操作并将我的应用程序中受监控网站的任何更新报告给我用户。我怎么能用javascript或java做到这一点?
答案 0 :(得分:0)
您可能需要的是一个网络爬虫,它在每个页面上运行快速差异或散列以检查更改。这是关于Java Web爬虫库的问题:https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library
至于散列,MD5非常快,并且保证为不同的内容提供不同的散列(即使它只是略有不同)。 CRC甚至更快,但并不可靠。
如果这些都不适合您,希望能够搜索" {Java | Javascript}网络抓取工具"会给你一些想法。