Question

我需要获得大约4千个网页的源代码，并从中提取一些数字。我使用urllib和.split()实现了这一点，将其存储在数据帧中并导出到csv。运行cProfile之后：

ncalls tottime  percall cumtime  percall filename:
290    0.003    0.000  411.894    1.420 request.py:1281(http_open)
290    0.002    0.000  411.956    1.421 request.py:140(urlopen)

这些需要很长时间。是否有解决方案来更快地获取源代码？如果没有，在6个不同的内核中分割网址是否有任何缺点，因此每个内核只需要获得650个源代码，并且并行运行，而不是使用线程。我是Python3的新手。

此外，上面摘录自cProfile =＆gt; Python3证明源代码提取是代码瓶颈的一部分？还有哪些其他因素会导致这方面的速度变慢？我有一个不错的8mbps连接，但我相信TCP握手需要太长时间。

Spyder中的多个内核--Python3

0 个答案: