并发Python维基百科包请求

时间:2018-04-14 15:14:31

标签: python api mediawiki wikipedia wikipedia-api

我正在创建一个python应用程序,它使用python Wikipedia包来检索3个不同维基百科页面的正文。但是,我注意到一次检索一篇文章时性能非常慢。有没有一种方法可以用来并行检索3个维基百科页面的正文?

2 个答案:

答案 0 :(得分:2)

如果你想要' raw'页面,您可以使用任何python抓取库,如contact APL2000 / twisted。 但是,如果您正在寻找解析的wiki格式,则应在多进程中使用scrapy / pywikibot

答案 1 :(得分:1)

如果您想要通用多处理库,可以使用bingepip install binge):

def worker(url):
    (...)
    return urlbody

urls = ['https://www....',
        'https://www....',
        ...
        'https://www....']

from binge import B
list_of_urlbodies = B(worker)(urls)

cf:binge documentation