我有一个大文本文件(400 MB),其中包含如下格式的数据:
805625228 linked to 670103907:0.981545
805829325 linked to 901909901:0.981545
803485795 linked to 1030404117:0.981545
805865780 linked to 811300706:0.981545
与ID相关联的ID:Probability_of_link
...
...
....
...
...
文本文件包含数百万个这样的条目,我有几个这样的文本文件。 作为分析数据的一部分,我多次解析数据(每个文本文件的格式不同)。在使用Python解析和处理数据时,我注意到我的内存使用量有时会高达3 GB。
将这些数据转储到文本文件有什么更好的方法?我可以将它存储在json / sql数据库中;它会给我带来多大的性能提升?什么样的数据库最适合这些数据?
仅供参考,上面显示的所有数据都是由包含数百万行的结构化.csv文件生成的。