我需要获得大约4千个网页的源代码,并从中提取一些数字。我使用urllib和.split()
实现了这一点,将其存储在数据帧中并导出到csv。
运行cProfile之后:
ncalls tottime percall cumtime percall filename:
290 0.003 0.000 411.894 1.420 request.py:1281(http_open)
290 0.002 0.000 411.956 1.421 request.py:140(urlopen)
这些需要很长时间。是否有解决方案来更快地获取源代码? 如果没有,在6个不同的内核中分割网址是否有任何缺点,因此每个内核只需要获得650个源代码,并且并行运行,而不是使用线程。我是Python3的新手。
此外,上面摘录自cProfile => Python3证明源代码提取是代码瓶颈的一部分? 还有哪些其他因素会导致这方面的速度变慢?我有一个不错的8mbps连接,但我相信TCP握手需要太长时间。