我经常以不同的格式处理非常大的二进制文件(从50到500Gb),其中包含基本上混合的数据,包括字符串。
我需要索引文件中的字符串,创建数据库或索引,这样我就可以快速搜索(基本搜索或复杂的正则表达式)。搜索的输出当然应该是二进制文件中找到的字符串的偏移量。
有谁知道可以帮助我完成这项任务的工具,框架或库?
答案 0 :(得分:0)
你可以运行' strings -t d' (Linux / OS X)在它上面拉出带有相应偏移量的字符串,然后将其放入Solr或Elastic中。如果你想要的不仅仅是ASCII,它会变得更加复杂。
Autopsy有自己的字符串提取代码(对于UTF-8和UTF-16)并将其放入Solr(如果支持文件格式则使用Tika),但它不记录偏离二进制文件,因此可能无法满足您的需求。