抓取动态网站的最快编程语言

时间:2019-05-12 15:45:17

标签: parsing web web-scraping programming-languages

我在Python上写了站点解析器(我从页面中提取数据,对其进行处理,执行用js生成的各种算术运算)。我尽可能使用selenium +纯lxml。但是我对表演不满意。

我想更快地在另一个programming language上书写。只有我不知道该选择哪一个。

有人写道Scala做所有事情,有人说C++(甚至不是C),有人代表Assembler,有人代表Rust,{{ 1}},Perl ...一般来说,我很困惑...解析PHP的速度更快吗?

1 个答案:

答案 0 :(得分:1)

假设要抓取的页面不在您的本地网络中(即使它们存在,这取决于它们的生成方式),则可能是您抓取的最慢的部分将等待通过网络。

由于要抓取多个页面,因此加快处理速度的最简单方法是并行抓取多个页面,因此不必等到一页完成后再开始下载下一页。

任何允许并行处理的语言都可以使用,但是即使该语言不支持,您也可以使用标准外壳并行运行多个抓取过程。