应用错误收集

如何同时解析多个网站？

时间：2017-01-04 12:25:01

标签： python python-3.x html-parsing spyder

使用Python3，我希望从超过4000个网页的源代码中收集特定数据，并将其导出为csv格式文件。

目前正在使用：urllib.request.urlopen(url).read().decode("utf-8")以及.split()函数以及DataFrame。

我在Spyder上运行了6个内核，同时使用不同的url集来提高速度。这有用吗？
可以使用多处理工作吗？也许一次执行100个源代码获取作业（原谅缺乏更好的术语）。由于网站上创建的流量，这会产生问题吗？
我被告知TCP握手时间可能是这种情况下的瓶颈。有没有相同的解决方法？

使用Python实现此目的的其他好/更好的方法是什么？我目前估计完成的时间大约是60个小时，只运行单个内核。

0 个答案:

没有答案