我编写了一个脚本来对HTTP存档数据进行一些研究。此脚本需要向HTTP存档抓取的网站发出HTTP请求,以便将网站分组(例如,Drupal,WordPress等)。脚本工作得很好;但是,我正在处理的网站列表是300,000个网站。
我希望能够尽快完成网站的分类。我已经尝试过同时运行脚本的多个实例,并且在适当的锁定下运行良好,以防止竞争条件。
如何尽可能快地完成所有这些操作?例如,我正在考虑使用8个CPU和16 GB RAM来启动VPS。如何最大化这些资源以确保我可以使用每一点处理能力?我可能会考虑更强大的东西,但我想确保我理解如何充分利用它,这样我就不会浪费钱。
谢谢!
答案 0 :(得分:1)
多处理模块是最佳选项,可让您利用8个CPU的最大功率: https://docs.python.org/3.3/library/multiprocessing.html