标记SQL注入字符串

时间:2016-01-21 11:55:09

标签: r tokenize

我有从大量PCAP文件中获取的请求数据集,并已将这些PCAP文件加载到R中。每个PCAP文件实际上是指单个观察(行)。

在这个数据集中有一个" Request"提供有关源请求的字符串的列。例如,请求可以是:

http://111.22.33.1/ilove/usingR/extraextra/sqli/?id='or1=1--

我想对每个请求字符串进行标记,以便在其上运行一些机器学习算法。为了对它进行一些分析,对这些字符串进行标记化的最佳方法是什么?我知道tm之类的包存在,但对它们的经验很少。

1 个答案:

答案 0 :(得分:0)

我担心你首先检查你的请求变量并找到类似的模式来帮助你找到规则来标记你的变量。

然后您可以将str_split/模式一起使用。如果将外观编号保留在字符串中,某些模型可能会在您的请求中找到共现模式。

然后对频率检查进行一些分析,以获取IP地址和文本。

tm更适用于文本语料库。在这里,由于它是“自动化”创建的字符串,您可能首先可以使用更经典的方法找到一些有用的信息。