如何使用lucene从一个简历中提取信息

时间:2012-10-29 02:25:17

标签: lucene

大家好!

我是Lucene的新人。

我正在使用lucene开发简历过滤器项目。首先,我想从简历中提取一些基本信息,例如bithday等。

假设总有一行说生日:1989/10/19或类似的东西。我怎样才能用Lucene提取这种信息,而不是直接使用正则表达式。

目前我发现也许使用SpanNearQuery会有所帮助。但似乎我无法在SpanNearQuery中添加WildcardQuery来匹配生日信息。

我完全被困了。有什么好建议吗?真的很感激!

1 个答案:

答案 0 :(得分:1)

从Lucene字段中提取日期并没有灵丹妙药,其中包含一堆文本和日期格式。最好的方法是编写一个自定义分析器,它可以在索引过程中将术语分开,并将数字字符标识为日期。

我为Lucene写了几个分析器,但是这样的东西并不是真的微不足道......特别是如果你是Lucene的新手。