我有大量文本数据要存储到磁盘,因为它们都不适合ram,但是我想使用索引或键快速检索某些行。
我最初是在看numpy的memmap,但看起来这并不是文本数据的最佳解决方案。
我也在查看hdfy / h5py / pytables,但目前尚不清楚这些数据格式是否适合文本数据。
最后,我还遇到了SQLite / sqlite3。我宁愿避免这种格式,因为目前我不想学习太多的数据库知识,但是如果这是最好的选择,我将使用它。
数据详细信息,如果需要的话:
〜一千万行数据
每行包含〜1000个字符,〜150个单词。