标签: algorithm search text statistics
在随机二进制文件中是否有人类可读文本字符串的标准搜索算法?
例如,处理可执行文件应该从导入表和字符串常量返回一些函数名列表。
显然必须使用一组特定于语言的词典并基于统计理论。
答案 0 :(得分:1)
您可以使用Hidden Markov model。对于二进制文本数据和文本数据,您可以创建一个模型,该模型描述给出前面或前几个字节的任何字节的可能性。鉴于从一个模型切换到另一个模型的概率,Viterbi algorithm可以找到二进制和文本最可能的基础交替。