标签: matching
我有一个大数据集,tcpdump捕获文件导出到文本。
我想在数据集中找到任何类似未知的模式并返回字段 和数据排序。基本上我们希望寻找未知的"模式"在数据集中。
我知道我们可以使用类似awk和grep的正则表达式,但从纯粹的研究角度来看,我给出了一个数据集5Gb和10Gb,其中我想找到未知的匹配模式.... 它们可以来自任何领域或数据结构。我已经在各种模式中使用wireshark来排序结构