我有一个100GB的随机字符串文件,长度在4到200个字符之间,每行一个。
我希望能够在文件中的任何字符串中找到字符串,例如如果可能的话,在“footestbar”中出现任何“test”。
否则,我很高兴能够找到以子字符串开头的行/记录,例如: “foo”发现“footestbar”而不是“testbarfoo”。
我正在考虑对文件进行一次排序,然后记录“a”行开始的位置,其中“b”行开始,等等。这样我就可以快速跳转到正确的部分,减少所需的时间。我可以通过记录所有三个角色组合开始使其更快的位置来进一步改进,但有些东西告诉我有更好的方法。