什么文件格式可以让我在文件中极快地搜索字符串?

时间:2016-11-23 00:27:19

标签: python file search full-text-search hard-drive

我有一个100GB的随机字符串文件,长度在4到200个字符之间,每行一个。

我希望能够在文件中的任何字符串中找到字符串,例如如果可能的话,在“footestbar”中出现任何“test”。

否则,我很高兴能够找到以子字符串开头的行/记录,例如: “foo”发现“footestbar”而不是“testbarfoo”。

我正在考虑对文件进行一次排序,然后记录“a”行开始的位置,其中“b”行开始,等等。这样我就可以快速跳转到正确的部分,减少所需的时间。我可以通过记录所有三个角色组合开始使其更快的位置来进一步改进,但有些东西告诉我有更好的方法。

1 个答案:

答案 0 :(得分:1)

我认为一个良好的开端可能是生成DAFSA。您可能需要将其与图形文件格式结合使用。