可以在此处找到第一个问题的链接:
Using VB.NET to Detect Changes in a Web Page
我对它进行了编辑,但被告知重新提交为一个新问题。但是使用上面的链接可以得到一个大致的想法。继续下面的编辑。谢谢!
对这个问题的新转折抱歉。我有更多的时间来思考我们想要的东西。所以......检测网页上的任何变化都会有点愚蠢,因为页面的时间依赖元素会经常变化。相反,我想要做的是能够检测页面中的文档。例如,如果有excel,word docs或pdf在该页面上被更改。因此,我会在这些文档上运行哈希,然后在某种程序上检查是否已添加新文档或是否已修改旧文档。有关如何检测页面上嵌入的文档和运行哈希的任何建议?再次感谢!
答案 0 :(得分:0)
我将从一个元建议开始:当提问的答案可能依赖于.NET本身,或者更普遍的编程时,请使用标记,并且不要使用{{{{{ 1}},因为大多数.NET社区使用C#,他们通常不会看到它。
关于您的实际问题,具体细节取决于您需要检查的具体内容,但总的来说,您需要在页面中定义感兴趣区域,例如,一个css选择器。因此,假设您正在观看的页面包含一些文档列表,该列表的编码如下:
VB.NET
因此,您编写了一些代码来下载此页面并使用选择器<p>New this week!</p>
<ul class="new-docs">
<li><a href="...">Some Doc</a></li>
<li><a href="...">Some Other Doc</a></li>
</ul>
提取元素,然后通过在整个HTML块上使用散列/校验和或通过显式记录每个来测试它的更改子项目并将新列表与旧列表进行比较。
您可能会发现this thread有助于在您下载页面后通过选择器实际提取给定的HTML。