.NET,scrape dynamic(Java App?)网页获取信息?

时间:2009-10-20 01:38:22

标签: c# .net screen-scraping applet

我试图从网站上获取一些信息,我需要的信息位于missouri.edu网站上(所以它是公开的)。 这是我需要完成的过程: - 导航至https://webapps.missouri.edu/ODDSearchEngine/oddsearch - 搜索“业务”等部门名称 - 点击任何部门名称,例如“商学院,晋升” - 我需要能够以编程方式查看单击“Business College,Advancement”后输出的页面源。

我希望能够获得每个业务部门(或我所投入的任何部门,如“会计”)的每个页面的来源。

Windows程序可以实现吗? 看起来运行它的“ODDSearchEngine”是一个Java applet。我不知道如何与它进行交互以获取页面。

作为参考,如果将地址放入由ODDSearchEngine输出的现有程序中,它将返回搜索页面的源代码,其中包含2个“java.lang.NullPointerException”错误。

有没有一种简单的方法可以通过.Net获取此信息?

1 个答案:

答案 0 :(得分:1)

我最近使用Watin执行类似任务(但需要登录并跟踪Cookie)。 Watin基本上模拟访问网站的用户。对于你需要的东西来说,它可能有点过分(而且很慢)。

我玩的另一种选择是HttpWebRequest/Response。这似乎应该满足您的需求。您还可以使用HTML Agility Pack来处理您收到的HTML。