如何从未知格式解析/提取英语语言文本以便在Lucene中进行索引

时间:2015-03-05 09:20:07

标签: c# .net parsing text lucene

我正在尝试从未知文件格式中提取所有“英语类似”的单词和短语,以便在Lucene中进行索引。它基本上充满了随意字符,穿插着英语单词块。目标是能够提取大部分单词以传递给Lucene来索引它们 - 不需要完全准确的解析或100%可读的结果。 Lucene的任何分析人员都可以完成这项工作吗,或者是否有已知技术从未知文件中提取类似英语的文本。

0 个答案:

没有答案