从维基百科中解析数据需要花费不可思议的长时间。我想做而不是一个线程\进程,至少5.在谷歌搜索后我发现在Python 3.5中有async for
。
以下是"非常短"当前"同步的版本"显示整个过程的代码(用注释快速理解代码的作用)。
def update_data(region_id=None, country__inst=None, upper_region__inst=None):
all_ids = []
# Get data about countries or regions or subregions
countries_or_regions_dict = OSM().get_countries_or_regions(region_id)
# Loop that I want to make async
for osm_id in countries_or_regions_dict:
names = countries_or_regions_dict[osm_id]['names']
if 'wiki_uri' in countries_or_regions_dict[osm_id]:
wiki_uri = countries_or_regions_dict[osm_id]['wiki_uri']
# PARSER: From Wikipedia gets translations of countries or regions or subregions
translated_names = Wiki().get_translations(wiki_uri, osm_id)
if not region_id: # Means it is country
country__inst = Countries.objects.update_or_create(osm_id=osm_id,
defaults={**countries_regions_dict[osm_id]})[0]
else: # Means it is region\subregion (in case of recursion)
upper_region__inst = Regions.objects.update_or_create(osm_id=osm_id,
country=country__inst,
region=upper_region__inst,
defaults={**countries_regions_dict[osm_id]})[0]
# Add to DB translated names from wiki
for lang_code in names:
###
# RECURSION: If country has regions or region has subregions, start recursion
if 'divisions' in countries_or_regions_dict[osm_id]:
regions_list = countries_or_regions_dict[osm_id]['divisions']
for division_id in regions_list:
all_regions_osm_ids = update_osm(region_id=division_id, country__inst=country__inst,
upper_region__inst=upper_region__inst)
all_ids += all_regions_osm_ids
return all_ids
我意识到我需要将def update_data
更改为async def update_data
并相应地将for osm_id in countries_or_regions_dict
更改为async for osm_id in countries_or_regions_dict
,
但我无法找到信息是否有必要在我的情况下使用get_event_loop()
以及在哪里?,以及如何指定循环的迭代次数可以同时运行的位置?有人可以帮助我让loop for
异步吗?
答案 0 :(得分:0)
asyncio
模块不会创建多个线程/进程,它在一个线程中运行代码,一个进程,但可以处理具有I / O块的情况(如果您以特殊方式编写代码)。 Read,何时应使用asyncio
。
只要您的代码具有同步性,我建议使用线程而不是asyncio
。创建ThreadPoolExecutor并使用它来解析多个线程中的Wiki。