我有加密的文本数据集,我想用神经网络算法对其进行分类。我知道加密数据中有一种模式。 输入数据的示例:
diss%^ ghghE(t dffd $#KL * vb xod @#:n> did ....
我的问题是,我应该将加密数据视为正常文本并创建词汇并将我的数据转换为索引序列吗? 我应该首先清除所有特殊字符的数据吗?
我尝试的是我清理了特殊字符中的所有数据,然后创建了一个词汇表并将我的数据转换为序列,但是我的准确度非常低。但是当我的数据是自然语言时,我的模型很有效。
感谢任何帮助。
答案 0 :(得分:2)
根据定义,良好的加密算法不允许您从加密数据中学习任何 [*]。
所以,除非你怀疑加密算法很弱,否则我建议你放弃这个想法。
[*]除了原始文本的大致尺寸