我尝试使用Tokenize
搜索端口号为
但显然它使用regexp来定义标记分隔符,即它返回文本BETWEEN ip地址。是否可以自己检索地址?
更新
我有一个大的文本日志文件作为输入。它有行,行包含一些有关IP地址的消息。我想把所有地址都记在一个他们正在计算的小组中。
RapidMiner可以吗?
答案 0 :(得分:0)
如果您希望示例集包含名称等于IP地址和可选端口的属性,您可以尝试以下操作。
将文件传递给Process Documents
操作员。
在此使用Tokenize
中使用以下正则表达式。
[^0-9.:]
在此之后,立即使用条件为Filter Token (by Content)
的{{1}}运算符和以下正则表达式。
contains match