相当于.NET或Java中的libwww-perl

时间:2010-06-17 07:23:00

标签: java .net perl

我已经在Perl中编写了一个爬虫,并且它非常简单,具有libwww-perl的高级功能。实际上它非常直接,它可以接受一个请求的原始HTML响应,并从该页面上的FORMs为您创建下一个HTTP请求(因为它将为您解析HTML)。

有人在.NET或Java上知道这样的库吗?

Selenium是不可能的,因为它需要浏览器打开,我们在实现中无法容纳它们。

2 个答案:

答案 0 :(得分:0)

HtmlUnit非常好,不需要单独的浏览器。

答案 1 :(得分:0)

请看这个链接:Java open source web crawlers