我想用一组类别执行网页抓取,每个类别也有一个网址列表。所以我决定只根据main函数中的每个类别调用一个函数,并且在内部函数中有一个非阻塞调用。
所以这是代码:
def main():
loop = asyncio.get_event_loop()
b = loop.create_task(f("p", all_p_list))
f = loop.create_task(f("f", all_f_list))
loop.run_until_complete(asyncio.gather(p, f))
它应该同时执行f
功能。
但是f
函数也必须运行循环,因为在函数中它根据每个URL同时调用一个函数。
async def f(category, total):
urls = [urls_template[category].format(t) for t in t_list]
soups_coro = map(parseURL_async, urls)
loop = asyncio.get_event_loop()
result = await loop.run_until_complete(asyncio.gather(*soups_coro))
但是在我运行脚本之后,它出现This event loop is already running
错误,我发现这是因为我在内部和外部函数中调用了loop.run_until_complete()
。
然而,当我剥离run_until_complete()
,并且只在f()
中调用main()
时,函数调用立即完成,它不能等待内部函数完成。因此,在main()
中调用循环是不可避免的。但后来我认为它与内部函数不兼容,内部函数也必须调用它。
如何处理问题并运行循环? orinigal代码全部在同一个main()
并且它有效,但我想尽可能使它更清洁。
答案 0 :(得分:3)
我该如何处理问题并运行循环?
循环已经在运行。你不需要(而且不能再)再次运行它。
result = await loop.run_until_complete(asyncio.gather(*soups_coro))
你在等待错误的事情。 loop.run_until_complete
并没有返回您可以等待的内容(Future
);它返回你运行的任何结果直到完成。
直接调用f
时似乎没有发生任何事情的原因是f
是一个asyncio风格的协程。因此,它返回必须使用事件循环计划的未来。在运行的事件循环告诉它之前,它不会执行。 loop.run_until_complete
为您处理所有这些事情。
要结束您的问题,您需要等待asyncio.gather
。
async def f(category, total):
urls = [urls_template[category].format(t) for t in t_list]
soups_coro = map(parseURL_async, urls)
result = await asyncio.gather(*soups_coro)
您可能还想在return result
的末尾添加f
。
答案 1 :(得分:2)
将main()
转换为异步函数并按loop.run_until_complete()
执行。
当代码只有一个run_until_complete()
时 - 一切都变得容易了。在Python 3.7中,您将只能编写asyncio.run(main())