我在Python
上写了站点解析器(我从页面中提取数据,对其进行处理,执行用js
生成的各种算术运算)。我尽可能使用selenium
+纯lxml
。但是我对表演不满意。
我想更快地在另一个programming language
上书写。只有我不知道该选择哪一个。
有人写道Scala
做所有事情,有人说C++
(甚至不是C
),有人代表Assembler
,有人代表Rust
,{{ 1}},Perl
...一般来说,我很困惑...解析PHP
的速度更快吗?
答案 0 :(得分:1)
假设要抓取的页面不在您的本地网络中(即使它们存在,这取决于它们的生成方式),则可能是您抓取的最慢的部分将等待通过网络。
由于要抓取多个页面,因此加快处理速度的最简单方法是并行抓取多个页面,因此不必等到一页完成后再开始下载下一页。
任何允许并行处理的语言都可以使用,但是即使该语言不支持,您也可以使用标准外壳并行运行多个抓取过程。