Lucene 4 - 如何丢弃索引中的数字术语?

时间:2015-02-10 12:09:22

标签: java lucene apache-tika standardanalyzer

在使用Apache Tika编制索引之前,我正在使用Apache Lucene来解析xml文档。

这是Tika部分:

  BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
  Metadata metadata = new Metadata();
  FileInputStream inputstream = new FileInputStream(f);
  ParseContext pcontext = new ParseContext();

  //Xml parser
  XMLParser xmlparser = new XMLParser(); 
  xmlparser.parse(inputstream, handler, metadata, pcontext);

  return handler.toString();// return simple text

我使用带有停用词列表的StandardAnalyzer来对我的文档进行标记:

 analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET);  // using stop words

我可以丢弃数字术语,因为我不需要它吗?

感谢您的帮助。

0 个答案:

没有答案