可以通过欺骗浏览器行为自动包含WebBrowser控件下载文件?

时间:2010-07-18 00:08:32

标签: c# .net winforms webbrowser-control browser-automation

假设我想自动从位于需要身份验证的网站内的网址下载文件,我使用基于Internet Explorer的自动WebBrowser控件登录该网站。但是,一旦我在那里并获取文件的链接,如果我尝试通过导航到它直接通过IE6下载它,将会有“你想打开或保存此文件”模式对话框。如果我尝试使用C#WebClient类下载它,它没有成功,所有下载的都是一小段无意义的javascript。事实上,出于好奇,我在Gmail网站上测试了试图下载附件的WebClient方法,但它也没有用(我知道从Gmail我可以通过POP3接口抓取它们,这只是一个实验)。

嗯,所以这让我想知道这一切的潜在机制。首先,也许我以错误的方式使用WebClient?或者在这种情况下可能还有一些其他标准的C#类用于下载文件?

如果没有,应用程序是否可能欺骗浏览器的行为,以便服务器认为文件请求来自它,即使它实际上来自同一进程的另一部分?浏览器在这种情况下究竟做了什么让它下载文件而WebClient无法下载?

2 个答案:

答案 0 :(得分:2)

如果您想了解两个网络程序的不同之处,您必须查看网络流量。使用Fiddler或类似的东西来查看每个程序正在做什么,然后比较两个。

答案 1 :(得分:1)

这通常与您的浏览器发送的cookie或其他HTTP请求标头有关。 Web服务器不能区分b / w是人为驱动的Web浏览器,也不能区分代码控制的“webclient”,只要它们发送完全相同的标题即可。

在人工驱动的“会话”身份验证中(输入用户名/密码)通常会导致某些cookie从服务器发送到浏览器,并且您继续“登录”,因为浏览器会在将这些cookie发送回服务器时提出后续要求。

因此,如果您的webclient可以正确发送(发布?)凭据,并继续根据需要存储和重新发送cookie(和/或“referrer”/“user-agent”标题),则不应该是不同(最后它只是请求,以及HTT协议的响应链)。

在您使用的特定“控件”中可能存在保护措施,以防止它(或API)被恶意软件使用。 “一个程序试图代表你发送电子邮件,你确定要允许这个吗?”提示,以及MS Outlook中伴随的5秒延迟就是这样一个例子。因此,如果您使用的特定API具有此类提示/预防措施,您可能无法完全默默地处理事情。