Question

我正在创建一个python应用程序，它使用python Wikipedia包来检索3个不同维基百科页面的正文。但是，我注意到一次检索一篇文章时性能非常慢。有没有一种方法可以用来并行检索3个维基百科页面的正文？

Answer 1

如果你想要＆＃39; raw＆＃39;页面，您可以使用任何python抓取库，如contact APL2000 / twisted。但是，如果您正在寻找解析的wiki格式，则应在多进程中使用scrapy / pywikibot。

Answer 2

如果您想要通用多处理库，可以使用binge（pip install binge）：

def worker(url):
    (...)
    return urlbody

urls = ['https://www....',
        'https://www....',
        ...
        'https://www....']

from binge import B
list_of_urlbodies = B(worker)(urls)

cf：binge documentation

并发Python维基百科包请求

2 个答案: