应用错误收集

时间：2016-10-27 19:19:03

标签： indexing binaryfiles binary-data computer-forensics

我经常以不同的格式处理非常大的二进制文件（从50到500Gb），其中包含基本上混合的数据，包括字符串。

我需要索引文件中的字符串，创建数据库或索引，这样我就可以快速搜索（基本搜索或复杂的正则表达式）。搜索的输出当然应该是二进制文件中找到的字符串的偏移量。

有谁知道可以帮助我完成这项任务的工具，框架或库？

答案 0 :(得分：0)

你可以运行＆＃39; strings -t d＆＃39; （Linux / OS X）在它上面拉出带有相应偏移量的字符串，然后将其放入Solr或Elastic中。如果你想要的不仅仅是ASCII，它会变得更加复杂。

Autopsy有自己的字符串提取代码（对于UTF-8和UTF-16）并将其放入Solr（如果支持文件格式则使用Tika），但它不记录偏离二进制文件，因此可能无法满足您的需求。