如何在RapidMiner中获取正则表达式匹配?

时间:2014-01-19 22:14:08

标签: regex tokenize rapidminer

我尝试使用Tokenize搜索端口号为

的IP地址

enter image description here

但显然它使用regexp来定义标记分隔符,即它返回文本BETWEEN ip地址。是否可以自己检索地址?

更新

我有一个大的文本日志文件作为输入。它有行,行包含一些有关IP地址的消息。我想把所有地址都记在一个他们正在计算的小组中。

RapidMiner可以吗?

1 个答案:

答案 0 :(得分:0)

如果您希望示例集包含名称等于IP地址和可选端口的属性,您可以尝试以下操作。

将文件传递给Process Documents操作员。

在此使用Tokenize中使用以下正则表达式。

[^0-9.:]

在此之后,立即使用条件为Filter Token (by Content)的{​​{1}}运算符和以下正则表达式。

contains match