编写Web Crawler的最佳服务器语言是什么?

时间:2012-01-01 14:53:10

标签: asp.net web-crawler

我想问一下用什么语言:

ASP.NET / Ruby / CGI / Perl / Python / ColdFusion ......

将是编写Webcrawler

的bes

并处理包含的信息????

(它应该用于数据挖掘)

  
    

运行时速度最快?最容易写?最容易维护?<<

  

由于

3 个答案:

答案 0 :(得分:4)

最适合您的语言 是一种语言

  • 熟悉给你。 (学习新语言很好,但网络爬虫是第一个项目的复杂目标)
  • 拥有一些 HTTP客户端库(因为抓取工具是HTTP客户端)。
  • 以某种方式高效,因为爬虫会运行很长时间
  • 以某种方式健壮,因为您不希望它太容易崩溃

我建议您使用ocamlocamlnet中进行编码,但您可能不熟悉它,因此您要么花时间学习它,要么采取其他措施。

答案 1 :(得分:2)

编写网络浏览器没有“最佳”语言。您唯一需要考虑的是,您需要一种多用途语言来处理非Web项目。

虽然抓取工具用于处理网页,但不是网站。

答案 2 :(得分:0)

Perl有一个名为LWP的模块,我发现它在网络爬行时非常有用。

http://metacpan.org/pod/LWP

此外,通常在您抓取网站时(并且您提到了数据挖掘),您正在尝试抓取或获取某种数据。 Perl对此很有意义,因为它是一种内置正则表达式的语言(对于匹配文本/数据非常有用)。

总而言之,您可以使用任何语言来抓取/挖掘数据。就语言语法和语言为抓取/匹配数据提供的任何HTTP库而言,这只是您的偏好。