我有一个Python程序,每隔X分钟使用Selenium从网站上抓取一些数据。 每个样本都表示为一个元组,具有布尔值和日期时间,例如:
result = (True, datetime.now())
通常,我将样品保存在一个非常容易执行的数据库中,但是这次我需要将其保存到文件中。 因此,每次采样后,我需要打开文件,并附加结果元组。
最初我使用JSON,但是,要附加新数据,必须首先使用json.load
,然后附加结果,然后再次json.dump
。
但是,由于Im最终不得不处理大量样本,因此添加过程将会大大减慢,因为我必须在重新写入之前先读取整个文件。
因此,JSON可能不是在这里使用的好格式。还有什么其他格式可以让我编写元组,以后再轻松阅读它们? (=不必一个个接一个地将它们自己解析为元组)。