在使用Apache Tika编制索引之前,我正在使用Apache Lucene来解析xml文档。
这是Tika部分:
BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(f);
ParseContext pcontext = new ParseContext();
//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);
return handler.toString();// return simple text
我使用带有停用词列表的StandardAnalyzer来对我的文档进行标记:
analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET); // using stop words
我可以丢弃数字术语,因为我不需要它吗?
感谢您的帮助。