比较数据格式以将文本数据存储在磁盘上,以便使用索引或密钥进行快速检索

时间:2019-05-26 17:23:07

标签: python

我有大量文本数据要存储到磁盘,因为它们都不适合ram,但是我想使用索引或键快速检索某些行。

我最初是在看numpy的memmap,但看起来这并不是文本数据的最佳解决方案。

我也在查看hdfy / h5py / pytables,但目前尚不清楚这些数据格式是否适合文本数据。

最后,我还遇到了SQLite / sqlite3。我宁愿避免这种格式,因为目前我不想学习太多的数据库知识,但是如果这是最好的选择,我将使用它。

数据详细信息,如果需要的话:

〜一千万行数据

每行包含〜1000个字符,〜150个单词。

0 个答案:

没有答案