我有100个条目的file1.txt。需要在大bzip文件file2.bz2文件中搜索file1.txt的内容。 bzgrep -f file1.txt file2.bz2需要很长时间。
答案 0 :(得分:0)
您无能为力。文件已压缩,搜索的唯一方法是将其解压缩。
一种可能的解决方法是保留文件的未压缩版本。
答案 1 :(得分:0)
您可以做很多事情,但这确实是过多的工作。
bzip2文件由块组成。您可以按块分割文件,对每个文件全文索引,然后保存索引。如果您对关键字有所了解,则可以过滤索引,否则,您将从所有文本中获得完整的索引混乱。这往往是原始未压缩文档大小的10到100倍。
如果仅在某些特定位置出现要索引的单词,或者您可以限制要索引的单词的数量,并且 搜索的频率比文档要高得多。
想法从这里被公然偷走:https://www.thanassis.space/buildWikipediaOffline.html