为lucene创建电子邮件标头的标记

时间:2012-10-16 21:22:16

标签: email header lucene tokenize analyzer

以下是rfc822,rfc2822和MIME下的示例标头定义 现在我想使用lucene创建全文搜索。 如果我使用标准分析仪,它会产生太多无用的令牌,这会降低性能。有没有什么办法可以通过编写自定义分析器来创建好的代币。标记生成器。

来自webmaster@email.marketingmag.ca

Microsoft Mail Internet Headers版本2.0

收到:来自sdlasd02.medicis.com([172.23.163.35])来自mpc-exchange.medicis.com

Microsoft SMTPSVC(6.0.3790.3959);      星期一,2009年6月1日04:30:59 -0700

收到:来自sdlasd02.medicis.com的邮件提取服务与Microsoft SMTPSVC;      星期一,2009年6月1日04:30:59 -0700

收到:来自SDLMAIL01.medicis.com([98.175.1.32])来自sdlasd02.medicis.com与Microsoft SMTPSVC(6.0.3790.1830);      星期一,2009年6月1日04:30:59 -0700

返回路径:bo-buhbpmfbpgh9f6axbzpa2ae1achzvh@b.email.marketingmag.ca

X-CTCH-ID: CFBA793F-FB3C-4DEB-A504-C6165B493680

X-CTCH-RefID:str = 0001.0A090202.4A23BBF3.009A,ss = 1,fgs = 0

X-CTCH-Action:忽略

1 个答案:

答案 0 :(得分:0)

您通常会为每个您感兴趣的标题添加一个字段(如Date,Message-ID,From:etc),并忽略其余字段。每个字段都是相关类型,并进行相应分析