unix命令从bzip文件中的一个文件中搜索内容

时间:2019-02-06 22:05:06

标签: unix full-text-search bzip2

我有100个条目的file1.txt。需要在大bzip文件file2.bz2文件中搜索file1.txt的内容。 bzgrep -f file1.txt file2.bz2需要很长时间。

2 个答案:

答案 0 :(得分:0)

您无能为力。文件已压缩,搜索的唯一方法是将其解压缩。
一种可能的解决方法是保留文件的未压缩版本。

答案 1 :(得分:0)

您可以做很多事情,但这确实是过多的工作。

bzip2文件由块组成。您可以按块分割文件,对每个文件全文索引,然后保存索引。如果您对关键字有所了解,则可以过滤索引,否则,您将从所有文本中获得完整的索引混乱。这往往是原始未压缩文档大小的10到100倍。

如果仅在某些特定位置出现要索引的单词,或者您可以限制要索引的单词的数量,并且 搜索的频率比文档要高得多。

想法从这里被公然偷走:https://www.thanassis.space/buildWikipediaOffline.html