刮痧数据,加载脚本

时间:2015-07-13 11:56:18

标签: c# web-scraping

最近我试图使用C#从网页中删除一些数据。 我的问题是,在C#中,当我使用WebBrowser对象操作网页时,当我导航到我的网页时,我只能得到:

<body>
    <script language="javascript"   src="com.astron.kapar.WebClient/com.astron.kapar.WebClient.nocache.js"></script>
</body>

但是如果你继续浏览实际的网页https://kapalk1.mavir.hu/kapar/lt-publication.jsp?locale=en_GB并查看源代码,你会看到正文中有一些表可能是因为浏览器加载了脚本。

我的问题是,C#操纵或处理这种网页的方式是什么?例如,选择一些日期并获取一些数据?有没有好的图书馆?

抱歉英语不好。

2 个答案:

答案 0 :(得分:0)

您需要使用无头IE或无头WebKit。

这些问题也可能是相关的。

Headless browser for C# (.NET)?

c# headless browser with javascript support for crawler

答案 1 :(得分:0)

如果您熟悉javascript,那么废弃javascript驱动网站的一个好方法就是here

我发现casperjs非常容易用于废弃javascript密集的网站。

  1. 使用casperjs script撰写css selectors以废弃网站,并使用JSON将所需的输出作为stdout发送至JSON.Stringify
  2. 使用casperjsC#调用ProcessStartInfo。请阅读stdout并将json序列化为POCO