我有一个Web抓取器,该抓取器可迭代地从网页中检索数据,并且我想将拉出的属性(最终)添加到熊猫数据框,以运行简单的统计信息和分析。每次抓取新页面时,当前脚本都会返回一个字典。
我知道向现有的熊猫数据帧添加新行或列很慢,所以我的想法是在将字典中的字典添加到csv时将其添加,然后在数据收集时立即将此csv全部转换为数据帧完成(可能从现在开始数月)。我将使用18个键值对处理多达100,000个字典。
在这种情况下是否有更有效的方法或数据类型使用?
答案 0 :(得分:0)
在您的问题中,您说when the data collection is finished (possibly months from now)
。与python或pandas或我可以想象的任何其他编程工具的效率相比,这是大量的时间。我刚刚创建了100k个长度为18的随机字典,其中包含浮点数,将其保存到文本文件(csv格式)中,并将大熊猫加载到数据帧中。保存2秒,加载0.5秒。因此,只需将每个新记录添加到文件中,并定期创建您选择的备份。