我正在创建一个python应用程序,它使用python Wikipedia包来检索3个不同维基百科页面的正文。但是,我注意到一次检索一篇文章时性能非常慢。有没有一种方法可以用来并行检索3个维基百科页面的正文?
答案 0 :(得分:2)
如果你想要' raw'页面,您可以使用任何python抓取库,如contact APL2000 / twisted。 但是,如果您正在寻找解析的wiki格式,则应在多进程中使用scrapy / pywikibot。
答案 1 :(得分:1)
如果您想要通用多处理库,可以使用binge
(pip install binge
):
def worker(url):
(...)
return urlbody
urls = ['https://www....',
'https://www....',
...
'https://www....']
from binge import B
list_of_urlbodies = B(worker)(urls)