应用错误收集

我最近注意到自3.1版以来Lucene StandardAnalyzer的行为有所改变。具体而言，3.0及以前版本将电子邮件，IP地址，公司名称等识别为单独的词汇类型，而后来的版本则不然。

例如，对于输入文本：“ example@mail.com 127.0.0.1 H＆amp; M ”，3.0分析器将识别以下类型：

1：example@mail.com:0-＆gt; 16：＆lt; EMAIL ＆gt;

2：127.0.0.1：17-＆gt; 26：＆lt; HOST ＆gt;

3：h＆amp; m：27-> 30：＆lt; COMPANY ＆gt;

但是，版本3.1及更高版本为相同的输入文本提供以下输出：

1：示例：0-＆gt; 7：＆lt; ALPHANUM ＆gt;

2：mail.com:8-＆gt; 16：＆lt; ALPHANUM ＆gt;

3：127.0.0.1：17-＆gt; 26：＆lt; NUM ＆gt;

我的问题是，如何使用较新版本的Lucene库实现旧的StandardAnalyzer行为？是否有一些标准的TokenFilter可以帮助我实现这一目标，还是需要实现自定义过滤器？