所以我正在制作一个类似网络爬虫的程序。它下载页面的html并使用正则表达式解析特定文本,然后将其添加到列表中。
实现这一点,我使用了异步http请求。 GET请求是异步发送的,并且对返回的html执行解析操作。
我的问题,我不确定它是否可能很简单,是程序运行不顺畅。它将发送一堆请求,暂停几秒钟,然后一次性递增所有解析的项目(尽管计数器被编程为每次添加一个项目时递增一次),例如它从53跳转到69而不是显示,54,55,56,......
对不起是一个新手,但我自学了所有这些东西,一些经验丰富的建议会有很长的路要走。
谢谢
答案 0 :(得分:4)
听起来不错。
您的任务中最慢的部分是通过网络下载页面。
你的程序开始一次下载一堆页面,等待它们到达,然后几乎立即解析它们。