以下是rfc822,rfc2822和MIME下的示例标头定义 现在我想使用lucene创建全文搜索。 如果我使用标准分析仪,它会产生太多无用的令牌,这会降低性能。有没有什么办法可以通过编写自定义分析器来创建好的代币。标记生成器。
来自webmaster@email.marketingmag.ca
Microsoft Mail Internet Headers版本2.0
收到:来自sdlasd02.medicis.com([172.23.163.35])来自mpc-exchange.medicis.com
Microsoft SMTPSVC(6.0.3790.3959); 星期一,2009年6月1日04:30:59 -0700
收到:来自sdlasd02.medicis.com的邮件提取服务与Microsoft SMTPSVC; 星期一,2009年6月1日04:30:59 -0700
收到:来自SDLMAIL01.medicis.com([98.175.1.32])来自sdlasd02.medicis.com与Microsoft SMTPSVC(6.0.3790.1830); 星期一,2009年6月1日04:30:59 -0700
返回路径:bo-buhbpmfbpgh9f6axbzpa2ae1achzvh@b.email.marketingmag.ca
X-CTCH-ID: CFBA793F-FB3C-4DEB-A504-C6165B493680
X-CTCH-RefID:str = 0001.0A090202.4A23BBF3.009A,ss = 1,fgs = 0
X-CTCH-Action:忽略
答案 0 :(得分:0)
您通常会为每个您感兴趣的标题添加一个字段(如Date,Message-ID,From:etc),并忽略其余字段。每个字段都是相关类型,并进行相应分析