在随机数据中搜索字符串

时间:2014-02-20 08:41:16

标签: algorithm search text statistics

在随机二进制文件中是否有人类可读文本字符串的标准搜索算法?

例如,处理可执行文件应该从导入表和字符串常量返回一些函数名列表。

显然必须使用一组特定于语言的词典并基于统计理论。

1 个答案:

答案 0 :(得分:1)

您可以使用Hidden Markov model。对于二进制文本数据和文本数据,您可以创建一个模型,该模型描述给出前面或前几个字节的任何字节的可能性。鉴于从一个模型切换到另一个模型的概率,Viterbi algorithm可以找到二进制和文本最可能的基础交替。